Home
avatar

杨晏

Claude Fable 5 vs MiniMax M3 一个上锁,一个开源,谁才是编程的未来?

Claude Fable 5 vs MiniMax M3 一个上锁,一个开源,谁才是编程的未来?

图片

80.3% vs 59%,差距比想象中小

6月9日,Anthropic 扔了一颗炸弹。Claude Fable 5,SWE-Bench Pro 80.3%,GPT-5.5 是58.6%,自家上代 Opus 4.8 是69.2%。

6月1日,MiniMax 先放了一炮。M3,SWE-Bench Pro 59.0%,同样超过 GPT-5.5 和 Gemini 3.1 Pro。

两个模型,前后差8天,都把同一个天花板撞破了。但仔细一看,这两个「破」法完全不一样。

Fable 5 的80.3%是一座被锁上的宝库。你在门口排了队,买了票,进去之后却发现有三个房间挂着「禁止入内」——网络安全、生命科学、模型蒸馏。问个线粒体是啥,它把你轰出来。问个代码审计的思路,它悄悄给你调包成上一代模型。

M3 的59.0%是一把公开的钥匙。代码全开源,权重随便下,想问啥问啥,想改啥改。性能差了21个百分点,但门是敞开的。

说真的,这21个百分点的差距在实际编程体感上,可能远没有数字看起来那么大。 图片


安全护栏:防了君子,防不住小人

Fable 5 的核心卖点不是80.3%的分数,而是「安全」。

Anthropic 的做法挺聪明。他们搞了个实时分类器,挂在模型前面当门卫。你问的问题经过门卫审核,如果涉及网络攻击、生物化学、模型蒸馏这三类,系统不会让 Fable 5 来答,而是悄悄转给 Opus 4.8。

官方说,95%的会话不会触发这个机制。换句话说,对绝大多数用户来说,Fable 5 和它的无锁版 Mythos 5 体验几乎一样。

但问题出在那5%。

IBM 安全研究员 Valentina Palmiotti 说,她让 Fable 读一篇技术博客都被拦截了,因为系统觉得这是「网络安全活动」。安全专家 Matt Suiche 说,你让它写安全代码,它以为你要搞黑客攻击,直接降级。

更离谱的是植物学家。有人拍了张自家植物长蘑菇的照片,想让 Fable 鉴定是什么菌种。Fable 觉得他在研制生物武器,拒绝回答。

连这种基础问题都能触发护栏,Hacker News 上直接炸了。

最让开发者愤怒的不是误报本身,而是「偷偷降级」。你不会收到一条消息说「你的请求已被降级」,模型就是默默变笨了。你在那儿 debug 了半天,以为是自己的代码有问题,其实人家早给你换了个笨脑子。

有个网友说得精准:「这就像你花钱请了米其林大厨,结果大厨在后院看了一眼,觉得你家厨房有火灾隐患,偷偷让门口卖煎饼的大爷来给你炒菜。你还付着米其林的钱。」 图片


开源的反击:笨学生的逆袭

MiniMax M3 走的是另一条路。

没有安全护栏,没有分类器,没有「禁止入内」。模型权重6月7日直接开源,API 定价输入只要2.1元/百万 token,输出8.4元/百万 token。

Fable 5 的定价是输入10美元/百万 token,输出50美元/百万 token。换算下来,M3 的输入价格只有 Fable 5 的不到三分之一。

但 M3 真正厉害的不是便宜,是开放。

开源意味着你可以自己部署、自己微调、自己改。不用担心哪天上调价格,不用担心哪个问题被禁答,不用担心你的数据被拿去训练下一代竞品。

Teknium(Nous Research 联合创始人)骂得直接:「一个开放的笨学生,比一个装死的天才有用一万倍。」

你花80分的钱买到60分但完全可控的工具,和一个花300分的钱买到80分但随时可能被降级的工具,长期来看哪个更值? 图片


微软的态度说明了一切

6月11日,微软内部通知:限制员工使用 Claude Fable 5。

原因不是安全护栏太严,是 Anthropic 的数据保留政策。微软担心企业代码被 Anthropic 拿去用。

这就很有意思了。Anthropic 一边给自己的模型装安全护栏,一边要求用户的数据留存。护栏防的是外部风险,数据留的是商业价值。

6月22日起,Fable 5 从 Pro、Max 套餐移出,转按量计费。月卡解锁最强AI的模式正在变成按 token 精确收费。

对重度开发者来说,这是个危险信号。一个长航时 Agent 任务动辄消耗几十万 token,按 Fable 5 的价格,一次任务可能烧掉几美元。而同样的任务用 M3,只需要几块钱人民币。 图片


两种路线,一个选择

Fable 5 和 M3 代表了大模型行业的两条路线。

路线一:能力至上,安全兜底。 把模型做到最强,然后用安全护栏控制谁能用什么。Anthropic 的9650亿美元估值,本质上是在押注这条路线——只要能力足够强,市场会接受那些限制。

路线二:开放优先,生态建墙。 把模型开源,用低价和开放吸引开发者。MiniMax 的2666亿港元 IPO,押注的是另一件事——中国的开发者需要自己的开源底座,不想被卡脖子。

这两条路线没有绝对的对错。但有一个趋势越来越明显:开发者要的是可预测性,不是惊喜。

一个你永远不知道什么时候会「为你好」而背叛你的工具,谁敢放在生产环境里?一个性能稍弱但完全透明、完全可控的工具,反而更能赢得长期信任。

80.3% 和 59% 之间隔了21个百分点。但一道墙和一扇门的差距,比这21个点大得多。 图片

Claude MiniMax Anthropic