国产模型把桌子掀了

5月22号晚上，两件事几乎同时发生。

DeepSeek宣布V4-Pro的2.5折优惠不再限时，直接变成永久定价。Qwen3.7-Max悄悄上线，编程能力反超了Claude Opus 4.6。

一边是把价格砸到地板，一边是把能力推到天花板。国产大模型这一周，像是商量好了一起重锤出击。

然后第二天，两位顶级工程师站出来说，AI正在批量制造低质量代码，软件基础设施正在崩溃。

三件事凑到一起，你品品这个味道。

DeepSeek，永久降价

先说最炸裂的。

DeepSeek V4-Pro的API价格，5月31号优惠到期后直接锁定原价的1/4。不是延长优惠期，不是「再送一个月」，是直接把折扣价变成正式价。

具体数字，输入缓存命中每百万Token 0.025元，输出6元。跟OpenAI比，GPT-5.5输出每百万Token 30美元约216元，DeepSeek是6元。差了30多倍。Pro版差距更离谱，超过200倍。

这已经是DeepSeek一个月内第四次调价了。4月26号全系缓存命中降到首发价1/10，V4-Pro再叠加1/4。现在这个1/4直接永久化。

梁文锋拿了700亿融资，转头就把价格砍到全球最低。你说这是「赛博菩萨」？我自己的感受是，这更像是一种战略信号。DeepSeek在用成本优势锁定开发者生态，让所有想进入中国市场的海外模型，先过价格这道坎。

0.025元/百万Token意味着什么？你基本上可以忽略Token成本了。对每天跑百万级调用的开发者来说，这叫Token自由。

Qwen3.7-Max，编程反超Claude

同一天，阿里的Qwen3.7-Max正式上线千问APP。

Artificial Analysis全球大模型榜单，56.6分，全球第五，国产第一。但这不是重点。

重点是编程。

Terminal Bench 2.0-Terminus，69.7分。超过DeepSeek V4-Pro Max的67.9，超过Claude Opus 4.6。

你没看错。一个国产模型，在编程智能体的核心基准上，跑赢了Claude的旗舰。

还有个实验更夸张。在一块模型从未见过的芯片，平头哥真武M890上，Qwen3.7-Max从零开始，35小时，1158次工具调用，自主完成了推理内核优化，把性能提升了10倍。同期DeepSeek V4 Pro只做到3.3倍就自动中断了。

Kimi K2.6是5倍，GLM 5.1是7.3倍，Qwen3.7-Max是10倍。

这个实验的意味很深。不是说模型多聪明，而是说它能在完全陌生的环境里，连续35小时不崩溃，自主迭代，自己找方向。这才是「智能体」该有的样子，不是聊两句就完了。

千问3.7三个月迭代了3.5、3.6、3.7三个版本。阿里的节奏明显在加速。

两位工程师的冷水

然后就是那盆冷水。

Mario Zechner，OpenClaw内部智能体框架Pi的创建者，libGDX作者。Armin Ronacher，Flask框架之父。两个人在一场对话里几乎是悲观地警告，AI正在批量制造低质量代码。

Zechner的原话，「基础设施正在崩溃，软件也比以前漏洞百出。我们或许还能再玩几个月，甚至几年，但最终它会让我们付出代价。」

Ronacher说得更直接，AI应该提升资深工程师的生产力，但很多公司为了短期效率，牺牲了长期利益。初级人才储备枯竭，软件漏洞百出，技术债务越堆越高。

他们说的不是AI能不能写代码的问题。是AI写了代码之后，没人审、没人懂、没人负责的问题。

代码排版工整、语法没错、逻辑表面通顺，但深入业务场景一看，无效冗余堆积，边界处理缺失，并发隐患到处都是，数据库语句性能低下。这些坑不是AI故意埋的，是它根本不理解你的业务逻辑、团队规范和线上环境。

PR审查的工作量反而增加了。原来轻松高效的Code Review，现在得逐行排查AI代码隐患，效率优势被抵消不说，审查疏漏还可能把问题代码推到线上。

三件事的暗线

降价、能力突破、质量警告，三件事看似无关，其实暗线很清楚。

DeepSeek把价格打到底，意味着更多开发者会涌入，更多AI代码会被写出来。Qwen3.7-Max编程能力反超Claude，意味着这些代码的质量上限在提高。

但Zechner和Ronacher提醒你的是，上限不等于下限。

当模型变得又便宜又强，公司更容易把AI编程当作默认选项。新手用它，省了学习成本，但也跳过了理解过程。资深工程师用它，确实提效，但如果审查跟不上产出速度，技术债务的增长速度会远快于代码行数。

价格降了4倍，调用量可能涨10倍。代码量涨10倍，审查工作量可能涨30倍，因为AI代码的隐患比人写的更难发现，它看起来太正常了。

这就是那个暗线，能力在涨，价格在降，但软件工程的基本约束没变。代码需要人理解、人维护、人负责。当产出速度远超消化速度，积累的就是技术债务，不是技术进步。

接下来会怎样

我觉得接下来几个月，行业会进入一个有意思的拉锯。

一边是模型能力持续飙升、价格持续下探。DeepSeek和Qwen已经在用成本优势和技术突破双重施压，国内的跟跑者会被迫跟进降价，海外模型进入中国市场的门槛被无限拉高。

另一边是工程实践开始出现反弹。像Zechner和Ronacher这样的声音不会是最后一个，会有越来越多的一线工程师站出来说，我们需要慢下来。

这个「慢下来」不是反对AI编程，而是重新划定边界。AI生成草稿和样板代码可以放开，但业务核心逻辑、安全模块、高并发场景，人工审查、测试和安全评估一个都不能少。

矛盾的地方在于，越便宜的模型，越容易让人跳过审查这一步。0.025元/百万Token的诱惑太大了，大到你会觉得「再跑一次也不费钱」。

但那两位工程师想告诉你的是，修bug的成本从来不按Token计费。

国产模型确实在掀桌子。掀得好。但掀完桌子之后坐下来，得有人看清桌上的牌面。便宜和强大，是工具的属性。审慎和负责，是人的判断。

这个平衡，2026年下半年整个行业都得找。