Home
avatar

杨晏

中美大模型Agent对决,5月20日这一天太巧了

中美大模型Agent对决,5月20日这一天太巧了

图片

说真的,5月20日这天挺魔幻的。凌晨Google I/O,皮查伊发布Gemini 3.5 Flash;白天阿里云峰会,Qwen3.7-Max亮相。中美两大AI巨头在同一天掏出压箱底的Agent模型,这概率跟中彩票差不多。

但真正有意思的不是时间撞车,而是两条路


谷歌,不讲武德

Gemini 3.5 Flash的定位很「不讲武德」。它顶着一个Flash的名号——你知道的,Flash在谷歌体系里一直是轻量级选手的代号。

但这次,这个轻量级选手在Agent基准MCP Atlas上拿了83.6%,直接压过GPT-5.5的75.3%和Claude Opus 4.7的79.1%。

更狠的是价格。 图片

免费。

全球免费使用,你打开Gemini App就能用。速度方面,289 token/秒,是GPT-5.5和Claude Opus 4.7的4倍,首token延迟大约65毫秒。对于需要实时响应的Agent场景,这基本就是碾压级的。

谷歌还搬出了Antigravity 2.0平台,演示了一个12小时内调动93个子Agent协同完成任务的场景。同时发布的Gemini Omni做了多模态,Gemini Spark走的是轻量化路线。

整套逻辑很清楚——用免费 + 高速 + Agent生态抢占入口。3.5 Pro下月才上,已经内部跑通了。 图片


阿里,35小时硬核证明

Qwen3.7-Max的Arena全球盲测排在国产第一,超过Kimi K2.6、DeepSeek V4-Pro、GLM-5.1。离GPT、Claude、Gemini的差距已经很小了。编程能力全球第七,Agent能力与头部企业的差距「微小」。

但最让人震住的是那个35小时的实验

> 在一个全新的芯片平台上,Qwen3.7-Max自己跑、自己编程、自己调优,连续1158次工具调用,把一个关键内核的推理速度提升了10倍。

整个过程完全自主,不掉线、不中断。你想想,35小时,一个AI模型自己完成一套从零开始的硬件优化流程——这不仅仅是benchmark分数的问题,这是「Agent真的能干活了」的铁证。

海外开发者已经疯了。X上有用户说得好——这一波真正的看点不是它又超了谁,是把长任务自主执行推到了产品级

有一件事阿里没怎么宣传但挺关键的——千问3.7能在Claude Code、OpenClaw、Qwen Code等多个框架下稳定跑。跨框架泛化已经出来了。

阿里的布局也很大:

  • 真武M890芯片
  • Agentic Cloud架构
  • 千问云入口

不是单点做模型,而是从芯片到云到模型一整套。用阿里云副总裁刘伟光的话说,这次是重新发明了全栈。 图片


眼睛,跟上了吗?

不过,文章不能只讲模型。

5月20日同一天,GitHub上还有一个有意思的现象。Understand-Anything这个开源项目,能把任意代码库转成交互式知识图谱,同日在趋势榜上暴涨。与此同时,CodeGraph(一个给Claude Code做预索引的插件)也在爆红——它的核心卖点很简单:让AI工具调用直接砍掉92%。

这两个项目同时爆发不是巧合。它们指向同一个趋势——当Agent能力越来越强,怎么让Agent「理解」代码就不再是锦上添花,而是刚需。

> 你可以把Gemini 3.5 Flash和Qwen3.7-Max看作Agent的大脑,把Understand-Anything和CodeGraph看作Agent的眼睛。大脑越来越聪明,眼睛也必须跟着升级,不然就是瞎子摸象。

有人把这个趋势叫「代码知识图谱元年」,说实话有点夸张,但逻辑是成立的。GitNexus、code-review-graph这些工具也在跟进。

以前AI看代码是逐行扫描、grep、glob、Read,现在是先建一张架构地图,然后精准定位。效率差距是数量级的。 图片


两条路,一个趋势

谷歌的打法很「硅谷」——免费铺量、极速响应、生态开放。用Gemini 3.5 Flash把门槛拉到零,让开发者先上车,然后用Antigravity平台做企业级变现。逻辑是「先让大家用起来,再谈怎么赚钱」。

阿里的打法更「中国」——不是拼单点能力,而是全栈打通。从真武芯片到Qwen3.7到Agentic Cloud到千问云入口,一整套都是自己的。35小时自主任务不是炫技,是展示「这套体系能承接现实世界的复杂工作」。

坦率的讲,这两种路径没有绝对优劣——谷歌的优势是生态和速度,阿里的优势是自主和全栈。

但有一个共同趋势很明确。

Agent不再是PPT概念了。 两个全球顶级玩家在同一天掏出的都不是「下一代模型」而是「能做事的Agent」。


图片

说真的,2026年下半年,AI行业的竞争重心已经从「谁模型大」转向了「谁能干活」。排行榜分数越来越不重要,35小时不掉线、93个子Agent协同、1000次工具调用零失误——这些才是新的硬通货。

你怎么看呢?这场中美Agent对决,你觉得哪条路会走得远?

AI Agen Google DeepSeek