中美大模型Agent对决，5月20日这一天太巧了

说真的，5月20日这天挺魔幻的。凌晨Google I/O，皮查伊发布Gemini 3.5 Flash；白天阿里云峰会，Qwen3.7-Max亮相。中美两大AI巨头在同一天掏出压箱底的Agent模型，这概率跟中彩票差不多。

但真正有意思的不是时间撞车，而是两条路。

谷歌，不讲武德

Gemini 3.5 Flash的定位很「不讲武德」。它顶着一个Flash的名号——你知道的，Flash在谷歌体系里一直是轻量级选手的代号。

但这次，这个轻量级选手在Agent基准MCP Atlas上拿了83.6%，直接压过GPT-5.5的75.3%和Claude Opus 4.7的79.1%。

更狠的是价格。

免费。

全球免费使用，你打开Gemini App就能用。速度方面，289 token/秒，是GPT-5.5和Claude Opus 4.7的4倍，首token延迟大约65毫秒。对于需要实时响应的Agent场景，这基本就是碾压级的。

谷歌还搬出了Antigravity 2.0平台，演示了一个12小时内调动93个子Agent协同完成任务的场景。同时发布的Gemini Omni做了多模态，Gemini Spark走的是轻量化路线。

整套逻辑很清楚——用免费 + 高速 + Agent生态抢占入口。3.5 Pro下月才上，已经内部跑通了。

阿里，35小时硬核证明

Qwen3.7-Max的Arena全球盲测排在国产第一，超过Kimi K2.6、DeepSeek V4-Pro、GLM-5.1。离GPT、Claude、Gemini的差距已经很小了。编程能力全球第七，Agent能力与头部企业的差距「微小」。

但最让人震住的是那个35小时的实验。

> 在一个全新的芯片平台上，Qwen3.7-Max自己跑、自己编程、自己调优，连续1158次工具调用，把一个关键内核的推理速度提升了10倍。

整个过程完全自主，不掉线、不中断。你想想，35小时，一个AI模型自己完成一套从零开始的硬件优化流程——这不仅仅是benchmark分数的问题，这是「Agent真的能干活了」的铁证。

海外开发者已经疯了。X上有用户说得好——这一波真正的看点不是它又超了谁，是把长任务自主执行推到了产品级。

有一件事阿里没怎么宣传但挺关键的——千问3.7能在Claude Code、OpenClaw、Qwen Code等多个框架下稳定跑。跨框架泛化已经出来了。

阿里的布局也很大：

真武M890芯片
Agentic Cloud架构
千问云入口

不是单点做模型，而是从芯片到云到模型一整套。用阿里云副总裁刘伟光的话说，这次是重新发明了全栈。

眼睛，跟上了吗？

不过，文章不能只讲模型。

5月20日同一天，GitHub上还有一个有意思的现象。Understand-Anything这个开源项目，能把任意代码库转成交互式知识图谱，同日在趋势榜上暴涨。与此同时，CodeGraph（一个给Claude Code做预索引的插件）也在爆红——它的核心卖点很简单：让AI工具调用直接砍掉92%。

这两个项目同时爆发不是巧合。它们指向同一个趋势——当Agent能力越来越强，怎么让Agent「理解」代码就不再是锦上添花，而是刚需。

> 你可以把Gemini 3.5 Flash和Qwen3.7-Max看作Agent的大脑，把Understand-Anything和CodeGraph看作Agent的眼睛。大脑越来越聪明，眼睛也必须跟着升级，不然就是瞎子摸象。

有人把这个趋势叫「代码知识图谱元年」，说实话有点夸张，但逻辑是成立的。GitNexus、code-review-graph这些工具也在跟进。

以前AI看代码是逐行扫描、grep、glob、Read，现在是先建一张架构地图，然后精准定位。效率差距是数量级的。

两条路，一个趋势

谷歌的打法很「硅谷」——免费铺量、极速响应、生态开放。用Gemini 3.5 Flash把门槛拉到零，让开发者先上车，然后用Antigravity平台做企业级变现。逻辑是「先让大家用起来，再谈怎么赚钱」。

阿里的打法更「中国」——不是拼单点能力，而是全栈打通。从真武芯片到Qwen3.7到Agentic Cloud到千问云入口，一整套都是自己的。35小时自主任务不是炫技，是展示「这套体系能承接现实世界的复杂工作」。

坦率的讲，这两种路径没有绝对优劣——谷歌的优势是生态和速度，阿里的优势是自主和全栈。

但有一个共同趋势很明确。

Agent不再是PPT概念了。 两个全球顶级玩家在同一天掏出的都不是「下一代模型」而是「能做事的Agent」。

说真的，2026年下半年，AI行业的竞争重心已经从「谁模型大」转向了「谁能干活」。排行榜分数越来越不重要，35小时不掉线、93个子Agent协同、1000次工具调用零失误——这些才是新的硬通货。

你怎么看呢？这场中美Agent对决，你觉得哪条路会走得远？

杨晏

中美大模型Agent对决，5月20日这一天太巧了

谷歌，不讲武德

阿里，35小时硬核证明

眼睛，跟上了吗？

两条路，一个趋势