中美 AI 博弈进入新阶段：7 席 vs8 个月，该信哪个？

上周两件事几乎同时发生，挺有意思。

OpenRouter 第 19 周数据出炉，全球 AI 大模型调用量 TOP10 里，中国占了 7 席。腾讯混元 HY3 Preview 排第一，月之暗面 Kimi K2.6 第二。DeepSeek V3.2、智谱 GLM-5 Turbo、通义千问、文心一言、MiniMax M2.7 全部上榜。

几乎同一时间，美国商务部下属 CAISI（人工智能标准与创新中心）发了份报告，说中国最强模型 DeepSeek V4 落后美国 8 个月。他们的算法很直白，V4 大概跟 8 个月前 OpenAI 发布的 GPT-5 水平相当。而且他们强调，差距还在拉大，从 DeepSeek R1 时候的 4 个月，已经扩大到了 8 个月。

一个说你家 7 个进前十，一个说你落后 8 个月。这俩叙事同时摆在面前，该怎么看？

先说 7 席这件事

OpenRouter 的调用量排行，反映的是「谁在被用」，不是「谁最强」。这个区别很重要。

腾讯混元排第一，2.68 万亿 Token 的调用量。但腾讯生态本身就是个巨大的流量池，微信、QQ、企业微信、腾讯云，混元的调用量里有相当比例是生态内循环。Kimi K2.6 排第二，靠的是长文本和中文场景的实用性，月之暗面最近疯狂迭代，K2.6 的 GPQA 跑到了 87.6%。

7 席里没有明显的短板模型。通用对话有通义千问和文心一言，长文本推理有 Kimi，代码有 DeepSeek V3.2，多模态有智谱 GLM-5 Turbo，性价比有 MiniMax。覆盖面确实全。

但这个「全」背后有一个容易被忽略的事实，调用量不等于技术领先。微信小程序的日活比 GitHub 高多了，你不能因此说小程序开发比开源社区更前沿。中国模型在应用端的渗透率确实在飞速增长，这跟国内的场景优势直接相关，中文场景、社交生态、电商流量，这些都是天然的内容消费市场。

再说 8 个月这件事

CAISI 的报告也不是瞎说。他们的评估维度是综合性能基准，用的是标准化测试集。DeepSeek V4 确实在推理和智能体能力上跟 GPT-5.2、Gemini 3.0 Pro、Claude Opus 4.5 大致持平，但距离 GPT-5.5 和 Claude Opus 4.6 还有一截。

而且 Anthropic 的 CEO Dario Amodei 在公开场合说了更狠的话，他认为如果拿还没全面开放的 Mythos 模型做参照，中国 AI 的差距是 6 到 12 个月。注意，Mythos 不是随便什么模型，是 Anthropic 内部认为目前最强的。

斯坦福 2026 年 AI 指数报告给了另一个视角，中美顶尖模型的性能差距只剩 2.7%。2025 年 2 月 DeepSeek R1 发布时，差距曾经短暂缩小到 0.4%。但这个 2.7%比的是「顶尖模型 vs 顶尖模型」，不是整体生态。

所以 8 个月这个数字，严格说是在特定评估框架下得出的结论。你换个维度，差距可能更大也可能更小。但有一点是确定的，训练芯片美国占全球 92%，中国占 3%。CUDA 生态覆盖了 90%以上的 AI 开发者。这两个数字才是真正的结构性差距。

两个叙事拼在一起

7 席说的是市场，8 个月说的是技术。这两个事情不矛盾。

中国 AI 在应用层和商业化上跑得飞快。场景多、用户量大、迭代节奏快，国产模型在中文场景的体验已经非常成熟。但底层算力和开发者生态依然是硬约束。昇腾芯片在推理端份额在涨，但训练端依然被英伟达锁死。

坦率的讲，现在是一个「应用追赶超预期，底层差距依然在」的状态。

打个不太恰当的比方，你开了家餐厅，翻台率全城第一，顾客排队到门口。但后厨的灶台和食材供应链是租的，房东随时可以涨房租。生意好是真的，隐患也是真的。

对普通创作者意味着什么

聊到这，就不得不提另一个近期很火的项目，AiToEarn。

这个项目在 GitHub 上拿了 9500 多颗星，冲上了 Trending。它做的事情很直接，把内容创作到变现的整个链条用 AI Agent 串起来。Create、Publish、Engage、Monetize，四个模块对应创作、发布、互动、变现，覆盖了抖音、小红书、微信视频号、快手、B 站、公众号、TikTok、YouTube 等 14 个平台。

它内置了内容交易市场，创作者可以直接接商家的推广任务，结算方式有 CPS（按成交额）、CPE（按互动量）、CPM（按播放量）三种。AI 负责批量生成内容、自动适配各平台格式规则、排期发布，人负责审核和调优。

这个东西能火，说明一个事实，内容创作者的痛点已经从「不会写」变成了「写不过来」。一个人要同时运营五六个平台，每个平台格式不同、调性不同、发布时间不同，纯靠人力根本扛不住。AI Agent 解决的恰好是这个批量化和标准化的部分。

但我也想说个实话。AiToEarn 这类工具，用好了是杠杆，用不好就是同质化内容生产机。当所有人都在用同一套工具批量生成内容的时候，内容本身就不值钱了。值钱的依然是你对选题的判断、对受众的理解、以及对内容调性的把控。

回到核心问题

中美 AI 博弈的「新阶段」到底新在哪？

新在叙事的分化。以前大家只看一个指标，模型跑分谁高谁低。现在不行了，调用量排行、性能基准、生态占比、商业落地，每个维度讲的故事都不一样。

中国 AI 的强项是场景和规模。7 席不是偶然，背后是十几亿用户的中文互联网生态在驱动模型迭代。这个优势短期内不会消失。

美国的强项是底层和生态。8 个月是时间差，但芯片和框架才是结构差。只要 CUDA 还锁着 90%的开发者，这个差距就不是靠一两个模型能填上的。

对咱们这些普通人来说，最务实的做法可能就是两边都用。国产模型做中文内容、跑日常任务，性价比极高。遇到需要深度推理或者复杂编程的场景，该用 Claude 和 GPT 还得用。工具没有立场，好用就行。

至于 AiToEarn 这类创作变现工具，值得试。但记住一点，AI 能帮你从 1 到 10，但从 0 到 1 的那个想法，它帮不了你。创作这件事，核心永远是「你要说什么」，不是「怎么说更快」。嗯

杨晏