AI模型赛道裂开了

这一周，AI行业同时发生了两件完全相反的事。

一边，OpenAI的GPT-5.6在Codex后台日志里被开发者翻了出来，代号iris-alpha，150万token上下文窗口，比GPT-5.5多了43%，6月就要正式发布。同一时间，阿里Qwen3.7-Max在Code Arena全球编程盲测拿到1541分，全球第二，前面只剩Claude。国产模型第一次杀到这个位置。

另一边，DeepSeek把V4-Pro的API价格永久打到2.5折，小米今天跟着宣布MiMo-V2.5降价最高99%。但豆包，字节跳动的豆包，开始收钱了。68块一个月，专业版500块。「豆包笨还收费」直接冲上热搜。

一个赛道在抢能力天花板，一个赛道在抢价格地板。同一个行业，同一个月，两条路越走越远。

GPT-5.6，不声不响就来了

这次泄露的方式挺有意思。不是发布会，不是官方剧透，是开发者在OpenAI Codex后台日志里翻到了一个叫iris-alpha的模型标识。除了iris-alpha，还发现了ember-alpha和beacon-alpha，具体对应什么版本目前没人知道。

但数据已经够炸了。

150万token上下文窗口。 GPT-5.5 API目前是105万，Codex OAuth渠道只有40万。GPT-5.6直接拉到150万，增幅43%。什么概念？一部《三体》三部曲可以一次性喂进去，不需要分段。大型代码仓库全库分析、跨周项目状态跟踪，都不再需要手动切分拼接。

开发者在OpenCode里做了极限测试，输入90万token时模型仍然流畅响应，超过105万token的极端负载下也能准确执行任务。

还有一个细节让我觉得OpenAI这次是认真的，零指令生成商用级UI。有开发者测试，GPT-5.6在几乎没有详细提示词的情况下，自主生成了一个叫Lumen Notes的极简主义笔记应用，接近商用级。前端开发这件事，可能真的要被重新定义了。

6月发布，双版本策略，标准版侧重多步骤推理，Pro版强化Agent工作流。

Qwen3.7-Max，国产模型的新天花板

5月26日凌晨，Code Arena放榜。

Qwen3.7-Max拿到1541分，全球第二。 前面只剩Claude Opus 4.7和Opus 4.6。GPT-5.5、Gemini 3.5 Flash、Kimi K2.6、DeepSeek V4-Pro，全部被甩在身后。

这是国产模型第一次杀进Code Arena全球前二。

Code Arena不是那种跑分跑出来的榜单。它让开发者出题，要求模型从零生成完整的、可交互的Web应用，然后匿名PK，全球开发者投票。比的是真实场景下的编程能力，不是刷题。

Qwen3.7-Max也是这个榜单里唯一突破1540分大关的国产模型。打破了Claude Opus 4.7和4.6长期统治的前四格局。

说真的，我自己的感受是——这个消息来得比想象中快。三个月前大家还在讨论国产模型能不能追上GPT-4的水平，现在Qwen3.7直接坐到了全球编程第二把交椅上。

一边往死里降，一边开始收钱

然后是价格赛道。这部分比性能赛道更有戏剧性。

DeepSeek V4-Pro永久2.5折。 输出6元/百万token，输入3元，缓存命中0.025元。原价24元降到6块，直接砍掉四分之三。5月22日宣布6月1日起促销价转正式价，不再恢复。

小米今天跟进了。 MiMo-V2.5系列API永久降价，最高降幅99%。输入缓存命中0.025元/百万tokens，跟DeepSeek打平。输出6元，同样拉到地板。

但同一时间，豆包开始收钱了。

字节跳动的豆包推出三档付费订阅，标准版68元/月，加强版200元/月，专业版500元/月。打破了国产大模型全免费的格局。结果「豆包笨还收费」的词条直接冲上热搜，用户吐槽铺天盖地。

智谱AI今年已经三次上调API价格。

价格战打成了两条线，DeepSeek和小米往死里降，豆包和智谱开始往回收。两种策略，两种判断。

有个数据对比很能说明问题，同等调用规模下，GPT-5.5长上下文版本的价格，是DeepSeek V4-Pro的40倍以上。 一个开发者说得好，这不是价格战，是单方面宣布价格结束。

分叉点

把性能赛道和价格赛道放在一起看，你会发现一个很有意思的结构。

OpenAI在推GPT-5.6的150万上下文和零指令UI生成，抢的是能力的上限。DeepSeek在把API价格打到2.5折，抢的是使用的门槛。Qwen3.7-Max在Code Arena拿全球第二，抢的是编程这个垂直领域的信任。豆包在收费，抢的是商业闭环。

四种策略，四个方向，同一个行业。

坦率的讲，我不觉得哪条路一定对。DeepSeek的低价策略靠的是极致的算力效率和开源生态，但毛利率被压到极限；豆包收费的逻辑是C端用户已经足够多，到了变现的时机，但用户用脚投票了。

而GPT-5.6和Qwen3.7-Max在做的，是把「AI能干什么」的天花板继续往上推。150万上下文，你可以把整个代码库喂进去。1541分，国产模型在编程上已经不是「追赶者」了。

我自己觉得，2026年年中的这个分叉点，比任何一次模型发布都重要。因为大家不再是同一个赛道上比谁跑得快了，有人往天花板走，有人往地板走，有人试图在中间找到收费的平衡点。

哪条路能走通？说实话我也不确定。但有一点很清楚——AI模型的竞争，已经不是单一维度的了。

杨晏

AI模型赛道裂开了

GPT-5.6，不声不响就来了

Qwen3.7-Max，国产模型的新天花板

一边往死里降，一边开始收钱

分叉点