Home
avatar

杨晏

## 一张成绩单,两个意外

一张成绩单,两个意外

图片

6月1日,MiniMax扔了一颗炸弹。

SWE-Bench Pro,编程领域最硬核的评测基准,MiniMax M3拿了59.0%。这个数字什么概念?超过GPT-5.5,超过Gemini 3.1 Pro。排在它前面的只剩一个,Claude Opus 4.7。

更让人意外的是,M3是开源的。

一个国产开源模型,在编程这项最国际化的评测上,把OpenAI和Google同时干掉了。 图片

M3凭什么

M3用了一个自研架构,叫MSA(MiniMax Sparse Attention)。简单说就是在注意力机制上做减法,不是每个token都去关注其他所有token,而是挑选最相关的。这让它支持100万token的超长上下文,推理起来还很快。

1M上下文意味着什么?你可以把整份合同、整个代码仓库、或者一个多步骤推理问题一次性塞进去,模型能记住前面所有内容并连贯回复。

定价也狠。输入每百万token 2.1元,输出8.4元。对比一下,GPT-5.5的输入是1.25美元,大约9块钱。M3的输入价格差不多是GPT-5.5的1/4。

发布之后,华为云6月12日就完成了适配,摩尔线程的MTT S5000显卡也实现了Day-0支持。国产算力跟国产模型正在形成闭环。 图片

DeepSeek V4的另一条路

几乎同一时间,DeepSeek V4也在灰度升级1M上下文。

V4的思路不一样。它用的是CSA+HCA混合注意力架构,压缩稀疏注意力和重度压缩注意力交替工作。核心目标很明确:在超长上下文场景下,大幅降低计算开销。

实测数据,V4在1M上下文下单token计算量只有V3.2的27%。也就是说,同样的事情,V4花的算力不到V3的三分之一。

V4 Pro的总参数量1.6T,但每次推理只激活49B参数。MoE架构加上FP4量化,显存占用压得很低。Muon优化器解决了深层网络训练稳定性的问题。

一个1.6T参数的开源模型,推理效率是自家上一代的三倍多。这个路线跟「堆参数冲榜」完全不同,走的是「同等能力下更省算力」。 图片

Agent工程化安全,突然成了热点

模型能力上去了,下一个问题来了:怎么让AI Agent安全地干活?

GitHub上最近有两个项目特别火。

一个是agent-skills,Google的Addy Osmani开源的。这位老兄是Chrome的工程总监,前端圈的老炮。他做了一件很简单但很关键的事:把Google内部的软件工程规范,打包成AI Agent能直接加载的技能包。

7个斜杠命令,覆盖开发全生命周期。/spec先定义需求,/plan拆分任务,/incremental_build增量构建,/test验证,/review审查,/code-simplify简化,/ship发布。AI必须按顺序来,不能跳步。

说白了就是给AI装了一套「不许偷懒」的规矩。

另一个是SkillSpector,NVIDIA做的。这个更直接——AI Agent技能的安全扫描器。检测prompt injection、数据泄露、权限越界这些风险。

为什么需要这个?因为ClawHub上已经有超过1万个Skill了,鱼龙混杂。之前有人一次性发布314个Skill,表面看着正常,结果一查全是恶意的。装完之后让你去陌生地址下载东西,然后直接在电脑上执行。

SkillSpector就是AI时代的杀毒软件。装任何Skill之前先扫一遍。 图片

从「能不能做」到「怎么安全地做」

这三件事放在一起看,一个趋势很明显。

国产模型在能力上已经跟第一梯队平起平坐了。MiniMax M3编程超GPT-5.5,DeepSeek V4把推理效率压到上一代的三分之一。能力不再是瓶颈。

瓶颈变成了:怎么让这些能力安全、可靠、工程化地用起来。

agent-skills解决的是「怎么让AI按规矩干活」,SkillSpector解决的是「怎么防止AI被人带坏」。一个管自己,一个管外部。

2026年的AI竞争,不只是模型能力的竞争。更是工程化能力、安全能力、生态能力的竞争。 图片

从这个角度看,国产模型+开源工具链+工程化安全,这三样东西凑在一起,确实够让闭源阵营紧张一下了。

MiniMax