Claude Fable 5 vs MiniMax M3 一个上锁，一个开源，谁才是编程的未来？

80.3% vs 59%，差距比想象中小

6月9日，Anthropic 扔了一颗炸弹。Claude Fable 5，SWE-Bench Pro 80.3%，GPT-5.5 是58.6%，自家上代 Opus 4.8 是69.2%。

6月1日，MiniMax 先放了一炮。M3，SWE-Bench Pro 59.0%，同样超过 GPT-5.5 和 Gemini 3.1 Pro。

两个模型，前后差8天，都把同一个天花板撞破了。但仔细一看，这两个「破」法完全不一样。

Fable 5 的80.3%是一座被锁上的宝库。你在门口排了队，买了票，进去之后却发现有三个房间挂着「禁止入内」——网络安全、生命科学、模型蒸馏。问个线粒体是啥，它把你轰出来。问个代码审计的思路，它悄悄给你调包成上一代模型。

M3 的59.0%是一把公开的钥匙。代码全开源，权重随便下，想问啥问啥，想改啥改。性能差了21个百分点，但门是敞开的。

说真的，这21个百分点的差距在实际编程体感上，可能远没有数字看起来那么大。

Fable 5 的核心卖点不是80.3%的分数，而是「安全」。

Anthropic 的做法挺聪明。他们搞了个实时分类器，挂在模型前面当门卫。你问的问题经过门卫审核，如果涉及网络攻击、生物化学、模型蒸馏这三类，系统不会让 Fable 5 来答，而是悄悄转给 Opus 4.8。

官方说，95%的会话不会触发这个机制。换句话说，对绝大多数用户来说，Fable 5 和它的无锁版 Mythos 5 体验几乎一样。

但问题出在那5%。

IBM 安全研究员 Valentina Palmiotti 说，她让 Fable 读一篇技术博客都被拦截了，因为系统觉得这是「网络安全活动」。安全专家 Matt Suiche 说，你让它写安全代码，它以为你要搞黑客攻击，直接降级。

更离谱的是植物学家。有人拍了张自家植物长蘑菇的照片，想让 Fable 鉴定是什么菌种。Fable 觉得他在研制生物武器，拒绝回答。

连这种基础问题都能触发护栏，Hacker News 上直接炸了。

最让开发者愤怒的不是误报本身，而是「偷偷降级」。你不会收到一条消息说「你的请求已被降级」，模型就是默默变笨了。你在那儿 debug 了半天，以为是自己的代码有问题，其实人家早给你换了个笨脑子。

有个网友说得精准：「这就像你花钱请了米其林大厨，结果大厨在后院看了一眼，觉得你家厨房有火灾隐患，偷偷让门口卖煎饼的大爷来给你炒菜。你还付着米其林的钱。」

MiniMax M3 走的是另一条路。

没有安全护栏，没有分类器，没有「禁止入内」。模型权重6月7日直接开源，API 定价输入只要2.1元/百万 token，输出8.4元/百万 token。

Fable 5 的定价是输入10美元/百万 token，输出50美元/百万 token。换算下来，M3 的输入价格只有 Fable 5 的不到三分之一。

但 M3 真正厉害的不是便宜，是开放。

开源意味着你可以自己部署、自己微调、自己改。不用担心哪天上调价格，不用担心哪个问题被禁答，不用担心你的数据被拿去训练下一代竞品。

Teknium（Nous Research 联合创始人）骂得直接：「一个开放的笨学生，比一个装死的天才有用一万倍。」

你花80分的钱买到60分但完全可控的工具，和一个花300分的钱买到80分但随时可能被降级的工具，长期来看哪个更值？

6月11日，微软内部通知：限制员工使用 Claude Fable 5。

原因不是安全护栏太严，是 Anthropic 的数据保留政策。微软担心企业代码被 Anthropic 拿去用。

这就很有意思了。Anthropic 一边给自己的模型装安全护栏，一边要求用户的数据留存。护栏防的是外部风险，数据留的是商业价值。

6月22日起，Fable 5 从 Pro、Max 套餐移出，转按量计费。月卡解锁最强AI的模式正在变成按 token 精确收费。

对重度开发者来说，这是个危险信号。一个长航时 Agent 任务动辄消耗几十万 token，按 Fable 5 的价格，一次任务可能烧掉几美元。而同样的任务用 M3，只需要几块钱人民币。

Fable 5 和 M3 代表了大模型行业的两条路线。

路线一：能力至上，安全兜底。 把模型做到最强，然后用安全护栏控制谁能用什么。Anthropic 的9650亿美元估值，本质上是在押注这条路线——只要能力足够强，市场会接受那些限制。

路线二：开放优先，生态建墙。 把模型开源，用低价和开放吸引开发者。MiniMax 的2666亿港元 IPO，押注的是另一件事——中国的开发者需要自己的开源底座，不想被卡脖子。

这两条路线没有绝对的对错。但有一个趋势越来越明显：开发者要的是可预测性，不是惊喜。

一个你永远不知道什么时候会「为你好」而背叛你的工具，谁敢放在生产环境里？一个性能稍弱但完全透明、完全可控的工具，反而更能赢得长期信任。

80.3% 和 59% 之间隔了21个百分点。但一道墙和一扇门的差距，比这21个点大得多。