中美 AI 博弈进入新阶段:7 席 vs8 个月,该信哪个?
中美 AI 博弈进入新阶段:7 席 vs8 个月,该信哪个?

上周两件事几乎同时发生,挺有意思。
OpenRouter 第 19 周数据出炉,全球 AI 大模型调用量 TOP10 里,中国占了 7 席。腾讯混元 HY3 Preview 排第一,月之暗面 Kimi K2.6 第二。DeepSeek V3.2、智谱 GLM-5 Turbo、通义千问、文心一言、MiniMax M2.7 全部上榜。
几乎同一时间,美国商务部下属 CAISI(人工智能标准与创新中心)发了份报告,说中国最强模型 DeepSeek V4 落后美国 8 个月。他们的算法很直白,V4 大概跟 8 个月前 OpenAI 发布的 GPT-5 水平相当。而且他们强调,差距还在拉大,从 DeepSeek R1 时候的 4 个月,已经扩大到了 8 个月。
一个说你家 7 个进前十,一个说你落后 8 个月。这俩叙事同时摆在面前,该怎么看?
先说 7 席这件事

OpenRouter 的调用量排行,反映的是「谁在被用」,不是「谁最强」。这个区别很重要。
腾讯混元排第一,2.68 万亿 Token 的调用量。但腾讯生态本身就是个巨大的流量池,微信、QQ、企业微信、腾讯云,混元的调用量里有相当比例是生态内循环。Kimi K2.6 排第二,靠的是长文本和中文场景的实用性,月之暗面最近疯狂迭代,K2.6 的 GPQA 跑到了 87.6%。
7 席里没有明显的短板模型。通用对话有通义千问和文心一言,长文本推理有 Kimi,代码有 DeepSeek V3.2,多模态有智谱 GLM-5 Turbo,性价比有 MiniMax。覆盖面确实全。
但这个「全」背后有一个容易被忽略的事实,调用量不等于技术领先。微信小程序的日活比 GitHub 高多了,你不能因此说小程序开发比开源社区更前沿。中国模型在应用端的渗透率确实在飞速增长,这跟国内的场景优势直接相关,中文场景、社交生态、电商流量,这些都是天然的内容消费市场。
再说 8 个月这件事
CAISI 的报告也不是瞎说。他们的评估维度是综合性能基准,用的是标准化测试集。DeepSeek V4 确实在推理和智能体能力上跟 GPT-5.2、Gemini 3.0 Pro、Claude Opus 4.5 大致持平,但距离 GPT-5.5 和 Claude Opus 4.6 还有一截。
而且 Anthropic 的 CEO Dario Amodei 在公开场合说了更狠的话,他认为如果拿还没全面开放的 Mythos 模型做参照,中国 AI 的差距是 6 到 12 个月。注意,Mythos 不是随便什么模型,是 Anthropic 内部认为目前最强的。
斯坦福 2026 年 AI 指数报告给了另一个视角,中美顶尖模型的性能差距只剩 2.7%。2025 年 2 月 DeepSeek R1 发布时,差距曾经短暂缩小到 0.4%。但这个 2.7%比的是「顶尖模型 vs 顶尖模型」,不是整体生态。
所以 8 个月这个数字,严格说是在特定评估框架下得出的结论。你换个维度,差距可能更大也可能更小。但有一点是确定的,训练芯片美国占全球 92%,中国占 3%。CUDA 生态覆盖了 90%以上的 AI 开发者。这两个数字才是真正的结构性差距。
两个叙事拼在一起
7 席说的是市场,8 个月说的是技术。这两个事情不矛盾。
中国 AI 在应用层和商业化上跑得飞快。场景多、用户量大、迭代节奏快,国产模型在中文场景的体验已经非常成熟。但底层算力和开发者生态依然是硬约束。昇腾芯片在推理端份额在涨,但训练端依然被英伟达锁死。
坦率的讲,现在是一个「应用追赶超预期,底层差距依然在」的状态。
打个不太恰当的比方,你开了家餐厅,翻台率全城第一,顾客排队到门口。但后厨的灶台和食材供应链是租的,房东随时可以涨房租。生意好是真的,隐患也是真的。 
对普通创作者意味着什么
聊到这,就不得不提另一个近期很火的项目,AiToEarn。
这个项目在 GitHub 上拿了 9500 多颗星,冲上了 Trending。它做的事情很直接,把内容创作到变现的整个链条用 AI Agent 串起来。Create、Publish、Engage、Monetize,四个模块对应创作、发布、互动、变现,覆盖了抖音、小红书、微信视频号、快手、B 站、公众号、TikTok、YouTube 等 14 个平台。
它内置了内容交易市场,创作者可以直接接商家的推广任务,结算方式有 CPS(按成交额)、CPE(按互动量)、CPM(按播放量)三种。AI 负责批量生成内容、自动适配各平台格式规则、排期发布,人负责审核和调优。
这个东西能火,说明一个事实,内容创作者的痛点已经从「不会写」变成了「写不过来」。一个人要同时运营五六个平台,每个平台格式不同、调性不同、发布时间不同,纯靠人力根本扛不住。AI Agent 解决的恰好是这个批量化和标准化的部分。
但我也想说个实话。AiToEarn 这类工具,用好了是杠杆,用不好就是同质化内容生产机。当所有人都在用同一套工具批量生成内容的时候,内容本身就不值钱了。值钱的依然是你对选题的判断、对受众的理解、以及对内容调性的把控。
回到核心问题
中美 AI 博弈的「新阶段」到底新在哪?
新在叙事的分化。以前大家只看一个指标,模型跑分谁高谁低。现在不行了,调用量排行、性能基准、生态占比、商业落地,每个维度讲的故事都不一样。
中国 AI 的强项是场景和规模。7 席不是偶然,背后是十几亿用户的中文互联网生态在驱动模型迭代。这个优势短期内不会消失。
美国的强项是底层和生态。8 个月是时间差,但芯片和框架才是结构差。只要 CUDA 还锁着 90%的开发者,这个差距就不是靠一两个模型能填上的。
对咱们这些普通人来说,最务实的做法可能就是两边都用。国产模型做中文内容、跑日常任务,性价比极高。遇到需要深度推理或者复杂编程的场景,该用 Claude 和 GPT 还得用。工具没有立场,好用就行。 
至于 AiToEarn 这类创作变现工具,值得试。但记住一点,AI 能帮你从 1 到 10,但从 0 到 1 的那个想法,它帮不了你。创作这件事,核心永远是「你要说什么」,不是「怎么说更快」。 嗯