国产模型把桌子掀了
国产模型把桌子掀了

5月22号晚上,两件事几乎同时发生。
DeepSeek宣布V4-Pro的2.5折优惠不再限时,直接变成永久定价。Qwen3.7-Max悄悄上线,编程能力反超了Claude Opus 4.6。
一边是把价格砸到地板,一边是把能力推到天花板。国产大模型这一周,像是商量好了一起重锤出击。
然后第二天,两位顶级工程师站出来说,AI正在批量制造低质量代码,软件基础设施正在崩溃。
三件事凑到一起,你品品这个味道。
DeepSeek,永久降价
先说最炸裂的。
DeepSeek V4-Pro的API价格,5月31号优惠到期后直接锁定原价的1/4。不是延长优惠期,不是「再送一个月」,是直接把折扣价变成正式价。
具体数字,输入缓存命中每百万Token 0.025元,输出6元。跟OpenAI比,GPT-5.5输出每百万Token 30美元约216元,DeepSeek是6元。差了30多倍。Pro版差距更离谱,超过200倍。
这已经是DeepSeek一个月内第四次调价了。4月26号全系缓存命中降到首发价1/10,V4-Pro再叠加1/4。现在这个1/4直接永久化。
梁文锋拿了700亿融资,转头就把价格砍到全球最低。你说这是「赛博菩萨」?我自己的感受是,这更像是一种战略信号。DeepSeek在用成本优势锁定开发者生态,让所有想进入中国市场的海外模型,先过价格这道坎。 
0.025元/百万Token意味着什么?你基本上可以忽略Token成本了。对每天跑百万级调用的开发者来说,这叫Token自由。
Qwen3.7-Max,编程反超Claude
同一天,阿里的Qwen3.7-Max正式上线千问APP。
Artificial Analysis全球大模型榜单,56.6分,全球第五,国产第一。但这不是重点。
重点是编程。
Terminal Bench 2.0-Terminus,69.7分。超过DeepSeek V4-Pro Max的67.9,超过Claude Opus 4.6。
你没看错。一个国产模型,在编程智能体的核心基准上,跑赢了Claude的旗舰。
还有个实验更夸张。在一块模型从未见过的芯片,平头哥真武M890上,Qwen3.7-Max从零开始,35小时,1158次工具调用,自主完成了推理内核优化,把性能提升了10倍。同期DeepSeek V4 Pro只做到3.3倍就自动中断了。
Kimi K2.6是5倍,GLM 5.1是7.3倍,Qwen3.7-Max是10倍。
这个实验的意味很深。不是说模型多聪明,而是说它能在完全陌生的环境里,连续35小时不崩溃,自主迭代,自己找方向。这才是「智能体」该有的样子,不是聊两句就完了。
千问3.7三个月迭代了3.5、3.6、3.7三个版本。阿里的节奏明显在加速。 
两位工程师的冷水
然后就是那盆冷水。
Mario Zechner,OpenClaw内部智能体框架Pi的创建者,libGDX作者。Armin Ronacher,Flask框架之父。两个人在一场对话里几乎是悲观地警告,AI正在批量制造低质量代码。
Zechner的原话,「基础设施正在崩溃,软件也比以前漏洞百出。我们或许还能再玩几个月,甚至几年,但最终它会让我们付出代价。」
Ronacher说得更直接,AI应该提升资深工程师的生产力,但很多公司为了短期效率,牺牲了长期利益。初级人才储备枯竭,软件漏洞百出,技术债务越堆越高。
他们说的不是AI能不能写代码的问题。是AI写了代码之后,没人审、没人懂、没人负责的问题。 
代码排版工整、语法没错、逻辑表面通顺,但深入业务场景一看,无效冗余堆积,边界处理缺失,并发隐患到处都是,数据库语句性能低下。这些坑不是AI故意埋的,是它根本不理解你的业务逻辑、团队规范和线上环境。
PR审查的工作量反而增加了。原来轻松高效的Code Review,现在得逐行排查AI代码隐患,效率优势被抵消不说,审查疏漏还可能把问题代码推到线上。
三件事的暗线
降价、能力突破、质量警告,三件事看似无关,其实暗线很清楚。
DeepSeek把价格打到底,意味着更多开发者会涌入,更多AI代码会被写出来。Qwen3.7-Max编程能力反超Claude,意味着这些代码的质量上限在提高。
但Zechner和Ronacher提醒你的是,上限不等于下限。 
当模型变得又便宜又强,公司更容易把AI编程当作默认选项。新手用它,省了学习成本,但也跳过了理解过程。资深工程师用它,确实提效,但如果审查跟不上产出速度,技术债务的增长速度会远快于代码行数。
价格降了4倍,调用量可能涨10倍。代码量涨10倍,审查工作量可能涨30倍,因为AI代码的隐患比人写的更难发现,它看起来太正常了。
这就是那个暗线,能力在涨,价格在降,但软件工程的基本约束没变。代码需要人理解、人维护、人负责。当产出速度远超消化速度,积累的就是技术债务,不是技术进步。
接下来会怎样
我觉得接下来几个月,行业会进入一个有意思的拉锯。
一边是模型能力持续飙升、价格持续下探。DeepSeek和Qwen已经在用成本优势和技术突破双重施压,国内的跟跑者会被迫跟进降价,海外模型进入中国市场的门槛被无限拉高。
另一边是工程实践开始出现反弹。像Zechner和Ronacher这样的声音不会是最后一个,会有越来越多的一线工程师站出来说,我们需要慢下来。
这个「慢下来」不是反对AI编程,而是重新划定边界。AI生成草稿和样板代码可以放开,但业务核心逻辑、安全模块、高并发场景,人工审查、测试和安全评估一个都不能少。
矛盾的地方在于,越便宜的模型,越容易让人跳过审查这一步。0.025元/百万Token的诱惑太大了,大到你会觉得「再跑一次也不费钱」。
但那两位工程师想告诉你的是,修bug的成本从来不按Token计费。
国产模型确实在掀桌子。掀得好。但掀完桌子之后坐下来,得有人看清桌上的牌面。
便宜和强大,是工具的属性。审慎和负责,是人的判断。
这个平衡,2026年下半年整个行业都得找。