## 一张成绩单，两个意外

一张成绩单，两个意外

6月1日，MiniMax扔了一颗炸弹。

SWE-Bench Pro，编程领域最硬核的评测基准，MiniMax M3拿了59.0%。这个数字什么概念？超过GPT-5.5，超过Gemini 3.1 Pro。排在它前面的只剩一个，Claude Opus 4.7。

更让人意外的是，M3是开源的。

一个国产开源模型，在编程这项最国际化的评测上，把OpenAI和Google同时干掉了。

M3用了一个自研架构，叫MSA（MiniMax Sparse Attention）。简单说就是在注意力机制上做减法，不是每个token都去关注其他所有token，而是挑选最相关的。这让它支持100万token的超长上下文，推理起来还很快。

1M上下文意味着什么？你可以把整份合同、整个代码仓库、或者一个多步骤推理问题一次性塞进去，模型能记住前面所有内容并连贯回复。

定价也狠。输入每百万token 2.1元，输出8.4元。对比一下，GPT-5.5的输入是1.25美元，大约9块钱。M3的输入价格差不多是GPT-5.5的1/4。

发布之后，华为云6月12日就完成了适配，摩尔线程的MTT S5000显卡也实现了Day-0支持。国产算力跟国产模型正在形成闭环。

几乎同一时间，DeepSeek V4也在灰度升级1M上下文。

V4的思路不一样。它用的是CSA+HCA混合注意力架构，压缩稀疏注意力和重度压缩注意力交替工作。核心目标很明确：在超长上下文场景下，大幅降低计算开销。

实测数据，V4在1M上下文下单token计算量只有V3.2的27%。也就是说，同样的事情，V4花的算力不到V3的三分之一。

V4 Pro的总参数量1.6T，但每次推理只激活49B参数。MoE架构加上FP4量化，显存占用压得很低。Muon优化器解决了深层网络训练稳定性的问题。

一个1.6T参数的开源模型，推理效率是自家上一代的三倍多。这个路线跟「堆参数冲榜」完全不同，走的是「同等能力下更省算力」。

模型能力上去了，下一个问题来了：怎么让AI Agent安全地干活？

GitHub上最近有两个项目特别火。

一个是agent-skills，Google的Addy Osmani开源的。这位老兄是Chrome的工程总监，前端圈的老炮。他做了一件很简单但很关键的事：把Google内部的软件工程规范，打包成AI Agent能直接加载的技能包。

7个斜杠命令，覆盖开发全生命周期。/spec先定义需求，/plan拆分任务，/incremental_build增量构建，/test验证，/review审查，/code-simplify简化，/ship发布。AI必须按顺序来，不能跳步。

说白了就是给AI装了一套「不许偷懒」的规矩。

另一个是SkillSpector，NVIDIA做的。这个更直接——AI Agent技能的安全扫描器。检测prompt injection、数据泄露、权限越界这些风险。

为什么需要这个？因为ClawHub上已经有超过1万个Skill了，鱼龙混杂。之前有人一次性发布314个Skill，表面看着正常，结果一查全是恶意的。装完之后让你去陌生地址下载东西，然后直接在电脑上执行。

SkillSpector就是AI时代的杀毒软件。装任何Skill之前先扫一遍。

这三件事放在一起看，一个趋势很明显。

国产模型在能力上已经跟第一梯队平起平坐了。MiniMax M3编程超GPT-5.5，DeepSeek V4把推理效率压到上一代的三分之一。能力不再是瓶颈。

瓶颈变成了：怎么让这些能力安全、可靠、工程化地用起来。

agent-skills解决的是「怎么让AI按规矩干活」，SkillSpector解决的是「怎么防止AI被人带坏」。一个管自己，一个管外部。

2026年的AI竞争，不只是模型能力的竞争。更是工程化能力、安全能力、生态能力的竞争。

从这个角度看，国产模型+开源工具链+工程化安全，这三样东西凑在一起，确实够让闭源阵营紧张一下了。