OpenAI被夹击了

这周的大模型格局，用一句话概括，OpenAI正在被两面夹击。

一面是国产模型。Kimi K2.6以94.3分登顶综合基准榜首，DeepSeek V4以93.8分紧随其后，GPT-5以93.5分滑到第三。这是OpenAI第一次在综合排行榜上跌出前二。

另一面是谷歌。代号「卡布奇诺」的Gemini 3.5 Pro提前曝光，编程能力追平GPT-5.5，还带了一个叫Spark的全天候Agent，能替你管邮件、跑任务，甚至不问你就下单。

国产模型和谷歌同时对OpenAI施压，这个格局半年前没人能预见到。

排行榜前二怎么换的人

先看数据。CSDN和稀土掘金发布的2026年5月AI大模型全景报告，综合基准测试排名：

Kimi K2.6，94.3分，第一。DeepSeek V4，93.8分，第二。GPT-5，93.5分，第三。Claude 4 Opus，93.1分，第四。Gemini Ultra 3.0，92.7分，第五。阿里Qwen3-235B，92.4分，第六。

前六名里，中国占了四个。

调用量层面更夸张。OpenRouter第19周数据，腾讯混元HY3 Preview以2.68万亿Token蝉联全球榜首，Kimi K2.6以1.61万亿排第二，DeepSeek三款模型合计调用量2.99万亿，首次超过OpenAI全系产品。中国大模型周调用量达到美国的2.11倍。

但排行榜不是全部。在细分能力上，格局更像一个拼图，每个模型各有长板。GPT-5.5在ARC-AGI-2上85%，Opus 4.7在EQ和编程上断层领先，Gemini 3.1 Pro数学最强（AIME 98.1%），DeepSeek V4 Pro在SWE-Bench上80.6%、Codeforces 3206分开源最高，Kimi K2.6是开源第一。

坦率的讲，没有「最强模型」了。每个模型都有自己最擅长的领域，排行榜前二的含金量更多是综合均衡的体现，不是绝对碾压。

DeepSeek识图模式补了什么

DeepSeek这周还有一件容易被排行榜遮盖的事，识图模式大范围开放。

之前DeepSeek最大的短板就是没有原生视觉能力。你能跟它聊代码、聊数学、聊推理，但你给它一张图，它看不懂。这在多模态已经是标配的2026年，确实是个硬伤。

现在补上了。而且补法很DeepSeek，不走寻常路。

主流多模态模型的思路是「视觉编码→文本理解」，先识别图片内容，转成文字描述，再用语言模型理解。DeepSeek搞了个「视觉原语思考」，把点、边界框这些空间视觉元素直接作为思维的基元，融入推理过程。

赛迪顾问分析师白润轩打了个比方，这就像给AI装了一根「赛博手指」，AI在推理时能在脑海里的图上精确指出目标物，边想边指。

实际效果体现在两个维度。一是精度，复杂空间布局和密集计数场景明显更好，比如一张密密麻麻的货架图，它能准确数出每排有多少个商品。二是成本，处理800×800分辨率图片只消耗约90个Token，GPT等主流模型动辄几千。成本差了一个数量级。

识图模式是独立入口，专注纯视觉理解，不额外启用联网功能。这个设计选择很有意思，不搞大而全，先把一件事做透。

Gemini 3.5 Pro的「卡布奇诺」

谷歌这周的曝光更戏剧性。

5月14日，知名爆料人can晒出了首批Gemini 3.5 Pro的输出。一个DualShock 4手柄的交互式蓝图拆解，另一个是鹈鹕骑自行车的矢量插画，自带7维定制面板，车架颜色、光照、头饰、篮筐内容、蹬车速度全部实时切换。这不是简单的SVG，是一个prompt生成的完整交互式Web应用。

5月15日，网友Lentils确认代号「Cappuccino」的Gemini 3.5 Pro检查点已经开始产出。几个小时前传闻还是Gemini 3.2，直接跳级到3.5。

Abacus.AI CEO Bindu Reddy放出的数据，3.2 Flash在编码和推理上达到GPT-5.5的92%，成本便宜15到20倍。

更值得注意的是Gemini Spark，一个全天候Agent。它能帮你管邮件、跑任务、修改文档，甚至可能不问你就替你下单。谷歌正在把Gemini从聊天机器人升级为部署在手机、浏览器、车载和笔记本上的系统级操作层。

还有Gemini Omni视频模型泄露，一段教授在黑板上推导三角恒等式的demo全网刷屏，AI视频第一次把数学公式写对了。这个事情的意义比看起来大，之前AI视频生成的文本一致性是公认的阿喀琉斯之踵，公式写着写着就变乱码是常态。

谷歌这波是I/O大会前的集中泄密，节奏感很强。

微软封杀Claude Code

大模型格局剧变的同时，AI编程工具这边也出了个标志性事件。

据The Verge报道，微软正在内部大规模取消Claude Code的使用许可，数千名开发者被要求在6月30日前改用GitHub Copilot CLI。受影响的主要是Experiences + Devices团队，覆盖Windows、Microsoft 365、Outlook、Teams、Surface等核心产品线。

这件事的微妙之处在于，微软去年12月主动向数千名员工开放了Claude Code。过去六个月，Claude Code在微软内部使用量激增，甚至侵蚀了自家Copilot的使用率。工程师用脚投了票。

数据很能说明问题。Claude Code的SWE-bench得分80.8%，基于GPT-4o的GitHub Copilot是72.5%，差了8.3个百分点。在涉及5个以上文件修改的复杂任务中，Claude Code成功率89%，Copilot只有60%。61%同时使用过两款工具的开发者认为Claude Code在复杂调试和重构中更准确。

但微软的逻辑很清晰。E&D负责人Rajesh Jha在内部备忘录里写，「Claude Code是我们学习过程中重要的一部分」，但Copilot CLI才是按照微软自身代码库和安全需求塑造的产品。

翻译一下，卖别家的大模型赚钱可以，让自家开发者每天用竞争对手的编程工具，不行。

这不等同于微软彻底放弃Claude。Claude模型仍会通过Copilot CLI提供，微软Foundry客户也还能用Claude Sonnet、Opus、Haiku。真正变化的是入口控制，微软不想让Claude Code这个独立工具成为内部默认。

为什么要关注「站队」

微软封杀Claude Code这件事，表面看是一个公司的内部决策，但它折射出一个更大的趋势，AI编程工具正在「站队」。

这个站队不是技术选型，是生态绑定。

Copilot背后是微软+OpenAI+GitHub的完整生态，从代码托管到CI/CD到项目管理全链路。Claude Code背后是Anthropic，目前更偏独立工具。Cursor背后是自研模型+多模型路由，试图做中立平台。

当微软开始用行政手段收拢入口，说明AI编程工具的竞争已经过了「谁好用谁」的阶段，进入了「谁控制工作流」的阶段。

对企业用户来说，这意味着选择AI编程工具不再只是效率问题，而是生态绑定问题。你选Copilot，等于进了微软的全栈生态。你选Claude Code，你在Anthropic的体系里。你选Cursor，你在多模型路由的中间地带。

没有对错，但选择有后果。生态绑定越深，迁移成本越高。今天你用Copilot写的代码、建的Agent、设的工作流，明天想切到Claude Code，成本远比换一个文本编辑器大得多。

夹击之下

回到开头说的两面夹击。

国产模型靠什么？成本优势和调用量。DeepSeek每百万Token输入成本0.02元，GPT的几分之一。调用量上中国已经是美国的2.11倍。但成本优势不等于技术领先，训练芯片美国仍占92%。

谷歌靠什么？技术深度和系统级整合。Gemini 3.5 Pro编程追平GPT-5.5，Spark Agent直接嵌入Android和Chrome，Omni视频模型解决了公式生成的硬伤。谷歌的打法是从模型到系统到应用的全栈推进。

OpenAI靠什么？品牌先发和微软生态。GPT-5.5综合第一，Copilot有GitHub和Visual Studio的装机量护城河。但本周的排行榜和微软内部的投票数据都说明，护城河在变浅。

我觉得接下来的看点不是谁能拿第一，而是「第一」这个概念本身在变得模糊。当每个模型都有自己最擅长的领域，当用户开始按场景选模型而不是认品牌，排行榜的意义就在变化。

Kimi K2.6和DeepSeek V4包揽前二，与其说是OpenAI的失败，不如说是一个信号，大模型市场正在从「赢者通吃」变成「多极共存」。

对开发者来说，这其实是好事。多极意味着选择权，意味着没有哪家可以躺赢。你今天用Claude Code写代码，明天换成DeepSeek V4当底层模型，成本降17倍，界面不用变。这种灵活性在垄断时代是不会有。

被夹击的OpenAI可能会更激进地推新模型、新功能。被逼急了的对手，往往最有动力创新。

这次，我倒希望OpenAI别认输。

杨晏