Home
avatar

杨晏

AI模型赛道裂开了

AI模型赛道裂开了

图片

这一周,AI行业同时发生了两件完全相反的事。

一边,OpenAI的GPT-5.6在Codex后台日志里被开发者翻了出来,代号iris-alpha,150万token上下文窗口,比GPT-5.5多了43%,6月就要正式发布。同一时间,阿里Qwen3.7-Max在Code Arena全球编程盲测拿到1541分,全球第二,前面只剩Claude。国产模型第一次杀到这个位置。

另一边,DeepSeek把V4-Pro的API价格永久打到2.5折,小米今天跟着宣布MiMo-V2.5降价最高99%。但豆包,字节跳动的豆包,开始收钱了。68块一个月,专业版500块。「豆包 笨还收费」直接冲上热搜。

一个赛道在抢能力天花板,一个赛道在抢价格地板。同一个行业,同一个月,两条路越走越远。 图片


GPT-5.6,不声不响就来了

这次泄露的方式挺有意思。不是发布会,不是官方剧透,是开发者在OpenAI Codex后台日志里翻到了一个叫iris-alpha的模型标识。除了iris-alpha,还发现了ember-alpha和beacon-alpha,具体对应什么版本目前没人知道。

但数据已经够炸了。

150万token上下文窗口。 GPT-5.5 API目前是105万,Codex OAuth渠道只有40万。GPT-5.6直接拉到150万,增幅43%。什么概念?一部《三体》三部曲可以一次性喂进去,不需要分段。大型代码仓库全库分析、跨周项目状态跟踪,都不再需要手动切分拼接。

开发者在OpenCode里做了极限测试,输入90万token时模型仍然流畅响应,超过105万token的极端负载下也能准确执行任务。

还有一个细节让我觉得OpenAI这次是认真的,零指令生成商用级UI。有开发者测试,GPT-5.6在几乎没有详细提示词的情况下,自主生成了一个叫Lumen Notes的极简主义笔记应用,接近商用级。前端开发这件事,可能真的要被重新定义了。 图片

6月发布,双版本策略,标准版侧重多步骤推理,Pro版强化Agent工作流。


Qwen3.7-Max,国产模型的新天花板

5月26日凌晨,Code Arena放榜。

Qwen3.7-Max拿到1541分,全球第二。 前面只剩Claude Opus 4.7和Opus 4.6。GPT-5.5、Gemini 3.5 Flash、Kimi K2.6、DeepSeek V4-Pro,全部被甩在身后。

这是国产模型第一次杀进Code Arena全球前二。

Code Arena不是那种跑分跑出来的榜单。它让开发者出题,要求模型从零生成完整的、可交互的Web应用,然后匿名PK,全球开发者投票。比的是真实场景下的编程能力,不是刷题。

Qwen3.7-Max也是这个榜单里唯一突破1540分大关的国产模型。打破了Claude Opus 4.7和4.6长期统治的前四格局。

说真的,我自己的感受是——这个消息来得比想象中快。三个月前大家还在讨论国产模型能不能追上GPT-4的水平,现在Qwen3.7直接坐到了全球编程第二把交椅上。 图片


一边往死里降,一边开始收钱

然后是价格赛道。这部分比性能赛道更有戏剧性。

DeepSeek V4-Pro永久2.5折。 输出6元/百万token,输入3元,缓存命中0.025元。原价24元降到6块,直接砍掉四分之三。5月22日宣布6月1日起促销价转正式价,不再恢复。

小米今天跟进了。 MiMo-V2.5系列API永久降价,最高降幅99%。输入缓存命中0.025元/百万tokens,跟DeepSeek打平。输出6元,同样拉到地板。

但同一时间,豆包开始收钱了。

字节跳动的豆包推出三档付费订阅,标准版68元/月,加强版200元/月,专业版500元/月。打破了国产大模型全免费的格局。结果「豆包 笨还收费」的词条直接冲上热搜,用户吐槽铺天盖地。

智谱AI今年已经三次上调API价格。

价格战打成了两条线,DeepSeek和小米往死里降,豆包和智谱开始往回收。两种策略,两种判断。 图片

有个数据对比很能说明问题,同等调用规模下,GPT-5.5长上下文版本的价格,是DeepSeek V4-Pro的40倍以上。 一个开发者说得好,这不是价格战,是单方面宣布价格结束。


分叉点

把性能赛道和价格赛道放在一起看,你会发现一个很有意思的结构。

OpenAI在推GPT-5.6的150万上下文和零指令UI生成,抢的是能力的上限。DeepSeek在把API价格打到2.5折,抢的是使用的门槛。Qwen3.7-Max在Code Arena拿全球第二,抢的是编程这个垂直领域的信任。豆包在收费,抢的是商业闭环。

四种策略,四个方向,同一个行业。

坦率的讲,我不觉得哪条路一定对。DeepSeek的低价策略靠的是极致的算力效率和开源生态,但毛利率被压到极限;豆包收费的逻辑是C端用户已经足够多,到了变现的时机,但用户用脚投票了。

而GPT-5.6和Qwen3.7-Max在做的,是把「AI能干什么」的天花板继续往上推。150万上下文,你可以把整个代码库喂进去。1541分,国产模型在编程上已经不是「追赶者」了。 图片

我自己觉得,2026年年中的这个分叉点,比任何一次模型发布都重要。因为大家不再是同一个赛道上比谁跑得快了,有人往天花板走,有人往地板走,有人试图在中间找到收费的平衡点。

哪条路能走通?说实话我也不确定。但有一点很清楚——AI模型的竞争,已经不是单一维度的了。

AI token QWen