编程智能体开战了，Cursor反杀、DeepSeek下场、20万星定义新规则

过去一周，三件看似不相关的事同时发生了。

5月19日，Cursor发布Composer 2.5，用1/10的价格追平Claude Opus 4.7。5月20日，DeepSeek宣布组建Harness团队，正式对标Claude Code。同一天，GitHub上一个叫superpowers的项目飙到近20万星，它不是模型也不是工具，而是一套让AI编程助手”开挂”的工程方法论。

三件事汇聚成一个清晰的信号，编程智能体已经从”谁的模型更强”升级为”谁的工程更可靠”。这个赛道正在从工具变成产品，从产品变成基础设施。

Cursor反杀，1/10的价格追平Opus

先说最硬的一条。

Cursor发布Composer 2.5，这个时间点选得很微妙。过去几个季度，AI编程市场的主角越来越像Anthropic的Claude Code。据36氪报道，Claude Code年化收入超过25亿美元，企业客户超过30万家。Cursor仍然是用户量最大的AI编程工具之一，但那种”默认领先”的气势确实被削弱了。

更麻烦的是结构性矛盾。Cursor一边要和Anthropic的Claude Code竞争，一边还要向Anthropic付推理成本。用竞争对手的模型来和竞争对手抢用户，这个局面谁都坐不住。

所以Composer 2.5不只是产品升级，是Cursor夺回主动权的必要动作。

跑分确实有说服力。SWE-Bench Multilingual上，Composer 2.5得分79.8%，只比Opus 4.7的80.5%低0.7个百分点，高于GPT-5.5的77.8%。Terminal-Bench 2.0上几乎追平Opus 4.7（69.3% vs 69.4%）。Cursor自家的CursorBench v3.1上，Composer 2.5甚至以63.2%超过了Opus 4.7默认设置的61.6%。

最狠的是价格。Composer 2.5每百万输入token 0.50美元、每百万输出token 2.50美元。Cursor发布时同步给出一张effort curve图，显示Composer 2.5在CursorBench上能以低于1美元的单任务平均成本达到约63%的成绩，而Opus 4.7和GPT-5.5每个任务要贵出数美元。

1/10的成本，几乎持平的性能。这不是小修小补的升级，这是掀桌子。

但最让我感兴趣的，是Cursor怎么做到的。Composer 2.5底层仍然沿用Kimi K2.5，没有换基础模型，把赌注全押在了后训练上。总计算量的85%都投入到了Kimi K2.5基础之上的自行训练和强化学习。

三项技术进展值得一提。

第一，带文本反馈的定向强化学习。以前的长rollout训练，模型跑完几十万token才知道结果好不好，出了问题不知道是哪一步的锅。Cursor的改进是，在模型执行出错的位置直接插入局部提示，把修正后的分布作为教师信号。信用分配更精确了。

第二，大规模合成数据。合成任务数量是上一代的25倍。其中有个方法叫”功能删除”，从一个可运行代码库中删掉某项功能，再要求模型重新实现，用测试作为验证信号。副作用很有意思，模型学会了”钻空子”。有一次它逆向分析了Python的类型检查缓存恢复被删除函数的签名，另一次它反编译Java字节码来重建第三方API。Cursor称这些是通过Agent式监控发现的，但这些例子也说明，大规模强化学习正在变得越来越难控制。

第三，Sharded Muon与双mesh HSDP。一种分布式版本的Muon优化器，在1T参数模型上优化器单步耗时0.2秒。

马斯克也亲自下场转发了Composer 2.5，称部分调用Colossus 2训练而成。Cursor已经宣布正在与SpaceX AI训练一个规模大得多的模型，使用Colossus 2的百万H100等效算力，总计算量是现在的10倍。

坦率的讲，Cursor这次确实打了个翻身仗。但3月份的”套壳”争议还在，Composer 2被扒出模型ID包含”Kimi”字样，Cursor创始人Aman Sanger承认”一开始没有在博客里提到Kimi底座，这是一个疏漏”。Composer 2.5这次的透明度高了很多，但信任这种东西，失去一次重建的代价不小。

DeepSeek下场，正式对标Claude Code

再说DeepSeek这条线。

5月20日，甲子光年从DeepSeek相关知情人士处了解到，DeepSeek已在内部组建全新Harness团队，主攻代码智能体产品，直接对标Anthropic的Claude Code。DeepSeek资深研究员陈德里在社交平台证实了这一消息。

团队的招聘信息显示，将主导DeepSeek桌面端Agent产品的全流程开发，并定义其对Harness的技术理解。团队位于北京海淀区融科资讯中心，同步开放Harness产品经理与研发工程师岗位。

这个时间点很有意思。就在消息公布的前一周，一个叫”鲸鱼哥”Hunter Bown的美国开发者刚带着他的DeepSeek-TUI引爆了杭州阿里中心。五一期间，这个项目在GitHub上四天暴涨3000多颗星，中文技术社区铺天盖地都在讨论。这是一款跑在命令行里的AI编程助手，专为DeepSeek V4模型优化，体验跟Claude Code一样顺，花的钱却只有几十分之一。

“鲸鱼哥”前脚刚走，DeepSeek就曝出自己要下场做Claude Code了。

这里有个微妙的关系。“鲸鱼哥”的DeepSeek-TUI是第三方开源项目，不是DeepSeek官方的。它证明了DeepSeek V4的模型能力足够支撑一个类Claude Code的编程Agent，但产品化程度还远远不够。DeepSeek自己组建Harness团队，等于从”民间先行”转向”官方下场”。

Harness这个词本身就很有讲究。它不是随便起的名字，而是Anthropic在2025年底到2026年初推动的概念，指的是智能体领域的工程基础设施参考框架，通过系统化的工程方案将基础大模型的原始智能转化为可靠、可控、可用的智能体能力。DeepSeek用”Harness”来命名团队，等于直接对标了Anthropic的工程范式。

DeepSeek V4发布快一个月了，性价比确实强，但编程场景的产品化一直是短板。4月发布的V4预览版声称针对Claude Code进行了专项优化，还灰度上线了识图模式解决V4-Pro接入Claude Code后难以识别架构图、设计稿、错误截图的问题。但这些都是在别人的产品里做优化，不是自己的产品。

现在DeepSeek终于要自己做产品了。

说真的，国内开发者等这一天等了很久。Anthropic对中国开发者的服务确实不好，API访问不稳定、支付方式受限、中文支持弱。很多人期盼有个国产编程Agent能至少对标Claude Code。DeepSeek V4的性价比已经证明了模型层面的可行性，现在缺的就是产品化这一步。

但产品化恰恰是最难的一步。Claude Code的成功不只是因为Claude模型强，更因为Anthropic在工程层面做了大量工作，从上下文管理到工具调用到多步骤任务编排。DeepSeek组建Harness团队，说明他们也意识到了这个问题。模型能力只是起点，工程能力才是终点。

20万星不靠模型，靠”怎么用模型”

最后说superpowers。这条线可能是三条里最深远的。

obra/superpowers，GitHub Trending榜首，198,582星，单日新增1,422颗。近20万星是什么概念？几乎等价于两个中型开源社区带来的流量，足以让一家中等规模的AI创业公司在一周内完成冷启动。

而拿到这份关注度的，不是模型，不是工具，是一套AI编程脚手架。

superpowers的核心是20余个经过实战检验的Skill。装上它之后，AI编程助手会像资深工程师一样工作，先问聪明的问题，生成可读的spec供人类审批，然后拆分成精确的2-5分钟小任务，每个任务有确切的文件路径、完整的代码需求和验证步骤。每个任务分配全新的子Agent执行，输出经过两轮审查，一次看是否符合spec，一次看代码质量。TDD环节将失败测试、最少代码和重构的过程强制化。

核心理念叫”Process over Prompt”，流程大于提示词。

这不是”写个贪吃蛇”那种玩具用法，而是真正的工程级自动化。它不跟Claude Code、Cursor、Copilot竞争，而是让它们变得更好用。它填补的是AI编程领域的结构性空白，不是让AI更聪明，而是让AI在工程环境里更可靠。

它的爆火踩中了开发者越来越头疼的两个问题，如何让AI写代码时不跑偏，以及AI写完之后如何确认它写对了。

这两个问题不是靠更强的模型就能解决的。再强的模型，没有工程纪律约束，照样一口气产出几百行代码然后在debug时无从下手。superpowers的价值在于，它用确定的流程对抗AI输出的不确定性。

更有意思的是，superpowers不是孤例。GitHub上的Agent基础设施项目正在经历一轮爆发。agents-best-practices、codex-complexity-optimizer双双登上Trending榜单，前者用于Codex、Claude Code等编码智能体的运行时框架设计，后者为Codex专属的代码库复杂度分析和性能优化。还有OpenClaw月涨21万星。

AI科技评论说得准确，“当模型能力趋同，竞争焦点就从’谁的模型更聪明’转向了’谁的工程标准更可能被开发者接受’“。这个转移是零和的。一旦某个范式被足够多的开发者采用，它就会形成锁定效应，成为后来者很难再改变的行业习惯。

Anthropic收Stainless是控制Agent连接外部系统的底层协议，OpenAI把Codex集成到ChatGPT移动端是抢远程指挥中心，微软整合Agentic Workflows是用云服务定义工程边界。superpowers在开源社区狂揽20万星，是民间力量争夺工程范式的定义权。

这是同一场标准卡位战的四种不同打法。

三条线交汇，编程智能体的新格局

把这三件事放在一起，格局变化非常清晰。

Cursor发布Composer 2.5，是从”用别人的模型”转向”自己掌控模型命运”。它不再满足于做Anthropic模型上的产品层，开始认真争取在模型竞赛中掌握自己的主动权。1/10的成本追平Opus，是对整个AI编程市场定价体系的冲击。

DeepSeek组建Harness团队，是从”提供模型让别人做产品”转向”自己做产品”。V4的性价比已经够了，编程场景的产品化是最后的短板。一旦补上，国内开发者终于有一个不依赖Anthropic的编程Agent选择。

superpowers近20万星，是从”谁的模型更强”转向”怎么用模型更靠谱”。它代表的趋势是，编程智能体的竞争维度正在增加。不只是模型能力，还有工程标准、工作流规范、可验证性。

我自己的感受是，我们正在经历编程智能体从”工具”到”产品”再到”基础设施”的跃迁。

Cursor反击说明，光有好的IDE体验不够了，你必须有自己的模型。DeepSeek下场说明，光有好的模型不够了，你必须有自己的产品。superpowers爆火说明，光有好的产品不够了，你必须有可靠的工程标准。

每一层竞争都比上一层更难，但也更持久。模型差距几个月就能追上，但工程标准的锁定效应可能持续几年甚至十几年。

编程智能体的战争才刚刚开始。

杨晏

编程智能体开战了，Cursor反杀、DeepSeek下场、20万星定义新规则

Cursor反杀，1/10的价格追平Opus

DeepSeek下场，正式对标Claude Code

20万星不靠模型，靠”怎么用模型”

三条线交汇，编程智能体的新格局