OpenAI被夹击了
OpenAI被夹击了

这周的大模型格局,用一句话概括,OpenAI正在被两面夹击。
一面是国产模型。Kimi K2.6以94.3分登顶综合基准榜首,DeepSeek V4以93.8分紧随其后,GPT-5以93.5分滑到第三。这是OpenAI第一次在综合排行榜上跌出前二。
另一面是谷歌。代号「卡布奇诺」的Gemini 3.5 Pro提前曝光,编程能力追平GPT-5.5,还带了一个叫Spark的全天候Agent,能替你管邮件、跑任务,甚至不问你就下单。
国产模型和谷歌同时对OpenAI施压,这个格局半年前没人能预见到。
排行榜前二怎么换的人
先看数据。CSDN和稀土掘金发布的2026年5月AI大模型全景报告,综合基准测试排名:
Kimi K2.6,94.3分,第一。DeepSeek V4,93.8分,第二。GPT-5,93.5分,第三。Claude 4 Opus,93.1分,第四。Gemini Ultra 3.0,92.7分,第五。阿里Qwen3-235B,92.4分,第六。
前六名里,中国占了四个。
调用量层面更夸张。OpenRouter第19周数据,腾讯混元HY3 Preview以2.68万亿Token蝉联全球榜首,Kimi K2.6以1.61万亿排第二,DeepSeek三款模型合计调用量2.99万亿,首次超过OpenAI全系产品。中国大模型周调用量达到美国的2.11倍。
但排行榜不是全部。在细分能力上,格局更像一个拼图,每个模型各有长板。GPT-5.5在ARC-AGI-2上85%,Opus 4.7在EQ和编程上断层领先,Gemini 3.1 Pro数学最强(AIME 98.1%),DeepSeek V4 Pro在SWE-Bench上80.6%、Codeforces 3206分开源最高,Kimi K2.6是开源第一。 
坦率的讲,没有「最强模型」了。每个模型都有自己最擅长的领域,排行榜前二的含金量更多是综合均衡的体现,不是绝对碾压。
DeepSeek识图模式补了什么
DeepSeek这周还有一件容易被排行榜遮盖的事,识图模式大范围开放。
之前DeepSeek最大的短板就是没有原生视觉能力。你能跟它聊代码、聊数学、聊推理,但你给它一张图,它看不懂。这在多模态已经是标配的2026年,确实是个硬伤。
现在补上了。而且补法很DeepSeek,不走寻常路。
主流多模态模型的思路是「视觉编码→文本理解」,先识别图片内容,转成文字描述,再用语言模型理解。DeepSeek搞了个「视觉原语思考」,把点、边界框这些空间视觉元素直接作为思维的基元,融入推理过程。
赛迪顾问分析师白润轩打了个比方,这就像给AI装了一根「赛博手指」,AI在推理时能在脑海里的图上精确指出目标物,边想边指。
实际效果体现在两个维度。一是精度,复杂空间布局和密集计数场景明显更好,比如一张密密麻麻的货架图,它能准确数出每排有多少个商品。二是成本,处理800×800分辨率图片只消耗约90个Token,GPT等主流模型动辄几千。成本差了一个数量级。
识图模式是独立入口,专注纯视觉理解,不额外启用联网功能。这个设计选择很有意思,不搞大而全,先把一件事做透。 
Gemini 3.5 Pro的「卡布奇诺」
谷歌这周的曝光更戏剧性。
5月14日,知名爆料人can晒出了首批Gemini 3.5 Pro的输出。一个DualShock 4手柄的交互式蓝图拆解,另一个是鹈鹕骑自行车的矢量插画,自带7维定制面板,车架颜色、光照、头饰、篮筐内容、蹬车速度全部实时切换。这不是简单的SVG,是一个prompt生成的完整交互式Web应用。
5月15日,网友Lentils确认代号「Cappuccino」的Gemini 3.5 Pro检查点已经开始产出。几个小时前传闻还是Gemini 3.2,直接跳级到3.5。
Abacus.AI CEO Bindu Reddy放出的数据,3.2 Flash在编码和推理上达到GPT-5.5的92%,成本便宜15到20倍。
更值得注意的是Gemini Spark,一个全天候Agent。它能帮你管邮件、跑任务、修改文档,甚至可能不问你就替你下单。谷歌正在把Gemini从聊天机器人升级为部署在手机、浏览器、车载和笔记本上的系统级操作层。
还有Gemini Omni视频模型泄露,一段教授在黑板上推导三角恒等式的demo全网刷屏,AI视频第一次把数学公式写对了。这个事情的意义比看起来大,之前AI视频生成的文本一致性是公认的阿喀琉斯之踵,公式写着写着就变乱码是常态。 
谷歌这波是I/O大会前的集中泄密,节奏感很强。
微软封杀Claude Code
大模型格局剧变的同时,AI编程工具这边也出了个标志性事件。
据The Verge报道,微软正在内部大规模取消Claude Code的使用许可,数千名开发者被要求在6月30日前改用GitHub Copilot CLI。受影响的主要是Experiences + Devices团队,覆盖Windows、Microsoft 365、Outlook、Teams、Surface等核心产品线。
这件事的微妙之处在于,微软去年12月主动向数千名员工开放了Claude Code。过去六个月,Claude Code在微软内部使用量激增,甚至侵蚀了自家Copilot的使用率。工程师用脚投了票。
数据很能说明问题。Claude Code的SWE-bench得分80.8%,基于GPT-4o的GitHub Copilot是72.5%,差了8.3个百分点。在涉及5个以上文件修改的复杂任务中,Claude Code成功率89%,Copilot只有60%。61%同时使用过两款工具的开发者认为Claude Code在复杂调试和重构中更准确。
但微软的逻辑很清晰。E&D负责人Rajesh Jha在内部备忘录里写,「Claude Code是我们学习过程中重要的一部分」,但Copilot CLI才是按照微软自身代码库和安全需求塑造的产品。
翻译一下,卖别家的大模型赚钱可以,让自家开发者每天用竞争对手的编程工具,不行。
这不等同于微软彻底放弃Claude。Claude模型仍会通过Copilot CLI提供,微软Foundry客户也还能用Claude Sonnet、Opus、Haiku。真正变化的是入口控制,微软不想让Claude Code这个独立工具成为内部默认。 
为什么要关注「站队」
微软封杀Claude Code这件事,表面看是一个公司的内部决策,但它折射出一个更大的趋势,AI编程工具正在「站队」。
这个站队不是技术选型,是生态绑定。
Copilot背后是微软+OpenAI+GitHub的完整生态,从代码托管到CI/CD到项目管理全链路。Claude Code背后是Anthropic,目前更偏独立工具。Cursor背后是自研模型+多模型路由,试图做中立平台。
当微软开始用行政手段收拢入口,说明AI编程工具的竞争已经过了「谁好用谁」的阶段,进入了「谁控制工作流」的阶段。
对企业用户来说,这意味着选择AI编程工具不再只是效率问题,而是生态绑定问题。你选Copilot,等于进了微软的全栈生态。你选Claude Code,你在Anthropic的体系里。你选Cursor,你在多模型路由的中间地带。
没有对错,但选择有后果。生态绑定越深,迁移成本越高。今天你用Copilot写的代码、建的Agent、设的工作流,明天想切到Claude Code,成本远比换一个文本编辑器大得多。 
夹击之下
回到开头说的两面夹击。
国产模型靠什么?成本优势和调用量。DeepSeek每百万Token输入成本0.02元,GPT的几分之一。调用量上中国已经是美国的2.11倍。但成本优势不等于技术领先,训练芯片美国仍占92%。
谷歌靠什么?技术深度和系统级整合。Gemini 3.5 Pro编程追平GPT-5.5,Spark Agent直接嵌入Android和Chrome,Omni视频模型解决了公式生成的硬伤。谷歌的打法是从模型到系统到应用的全栈推进。
OpenAI靠什么?品牌先发和微软生态。GPT-5.5综合第一,Copilot有GitHub和Visual Studio的装机量护城河。但本周的排行榜和微软内部的投票数据都说明,护城河在变浅。
我觉得接下来的看点不是谁能拿第一,而是「第一」这个概念本身在变得模糊。当每个模型都有自己最擅长的领域,当用户开始按场景选模型而不是认品牌,排行榜的意义就在变化。
Kimi K2.6和DeepSeek V4包揽前二,与其说是OpenAI的失败,不如说是一个信号,大模型市场正在从「赢者通吃」变成「多极共存」。
对开发者来说,这其实是好事。多极意味着选择权,意味着没有哪家可以躺赢。你今天用Claude Code写代码,明天换成DeepSeek V4当底层模型,成本降17倍,界面不用变。这种灵活性在垄断时代是不会有。 
被夹击的OpenAI可能会更激进地推新模型、新功能。被逼急了的对手,往往最有动力创新。
这次,我倒希望OpenAI别认输。