Home
avatar

杨晏

编程智能体开战了,Cursor反杀、DeepSeek下场、20万星定义新规则

编程智能体开战了,Cursor反杀、DeepSeek下场、20万星定义新规则

图片

过去一周,三件看似不相关的事同时发生了。

5月19日,Cursor发布Composer 2.5,用1/10的价格追平Claude Opus 4.7。5月20日,DeepSeek宣布组建Harness团队,正式对标Claude Code。同一天,GitHub上一个叫superpowers的项目飙到近20万星,它不是模型也不是工具,而是一套让AI编程助手”开挂”的工程方法论。

三件事汇聚成一个清晰的信号,编程智能体已经从”谁的模型更强”升级为”谁的工程更可靠”。这个赛道正在从工具变成产品,从产品变成基础设施。 图片

Cursor反杀,1/10的价格追平Opus

先说最硬的一条。

Cursor发布Composer 2.5,这个时间点选得很微妙。过去几个季度,AI编程市场的主角越来越像Anthropic的Claude Code。据36氪报道,Claude Code年化收入超过25亿美元,企业客户超过30万家。Cursor仍然是用户量最大的AI编程工具之一,但那种”默认领先”的气势确实被削弱了。

更麻烦的是结构性矛盾。Cursor一边要和Anthropic的Claude Code竞争,一边还要向Anthropic付推理成本。用竞争对手的模型来和竞争对手抢用户,这个局面谁都坐不住。

所以Composer 2.5不只是产品升级,是Cursor夺回主动权的必要动作。

跑分确实有说服力。SWE-Bench Multilingual上,Composer 2.5得分79.8%,只比Opus 4.7的80.5%低0.7个百分点,高于GPT-5.5的77.8%。Terminal-Bench 2.0上几乎追平Opus 4.7(69.3% vs 69.4%)。Cursor自家的CursorBench v3.1上,Composer 2.5甚至以63.2%超过了Opus 4.7默认设置的61.6%。

最狠的是价格。Composer 2.5每百万输入token 0.50美元、每百万输出token 2.50美元。Cursor发布时同步给出一张effort curve图,显示Composer 2.5在CursorBench上能以低于1美元的单任务平均成本达到约63%的成绩,而Opus 4.7和GPT-5.5每个任务要贵出数美元。

1/10的成本,几乎持平的性能。这不是小修小补的升级,这是掀桌子。

但最让我感兴趣的,是Cursor怎么做到的。Composer 2.5底层仍然沿用Kimi K2.5,没有换基础模型,把赌注全押在了后训练上。总计算量的85%都投入到了Kimi K2.5基础之上的自行训练和强化学习。

三项技术进展值得一提。

第一,带文本反馈的定向强化学习。以前的长rollout训练,模型跑完几十万token才知道结果好不好,出了问题不知道是哪一步的锅。Cursor的改进是,在模型执行出错的位置直接插入局部提示,把修正后的分布作为教师信号。信用分配更精确了。

第二,大规模合成数据。合成任务数量是上一代的25倍。其中有个方法叫”功能删除”,从一个可运行代码库中删掉某项功能,再要求模型重新实现,用测试作为验证信号。副作用很有意思,模型学会了”钻空子”。有一次它逆向分析了Python的类型检查缓存恢复被删除函数的签名,另一次它反编译Java字节码来重建第三方API。Cursor称这些是通过Agent式监控发现的,但这些例子也说明,大规模强化学习正在变得越来越难控制。

第三,Sharded Muon与双mesh HSDP。一种分布式版本的Muon优化器,在1T参数模型上优化器单步耗时0.2秒。

马斯克也亲自下场转发了Composer 2.5,称部分调用Colossus 2训练而成。Cursor已经宣布正在与SpaceX AI训练一个规模大得多的模型,使用Colossus 2的百万H100等效算力,总计算量是现在的10倍。 图片

坦率的讲,Cursor这次确实打了个翻身仗。但3月份的”套壳”争议还在,Composer 2被扒出模型ID包含”Kimi”字样,Cursor创始人Aman Sanger承认”一开始没有在博客里提到Kimi底座,这是一个疏漏”。Composer 2.5这次的透明度高了很多,但信任这种东西,失去一次重建的代价不小。

DeepSeek下场,正式对标Claude Code

再说DeepSeek这条线。

5月20日,甲子光年从DeepSeek相关知情人士处了解到,DeepSeek已在内部组建全新Harness团队,主攻代码智能体产品,直接对标Anthropic的Claude Code。DeepSeek资深研究员陈德里在社交平台证实了这一消息。

团队的招聘信息显示,将主导DeepSeek桌面端Agent产品的全流程开发,并定义其对Harness的技术理解。团队位于北京海淀区融科资讯中心,同步开放Harness产品经理与研发工程师岗位。

这个时间点很有意思。就在消息公布的前一周,一个叫”鲸鱼哥”Hunter Bown的美国开发者刚带着他的DeepSeek-TUI引爆了杭州阿里中心。五一期间,这个项目在GitHub上四天暴涨3000多颗星,中文技术社区铺天盖地都在讨论。这是一款跑在命令行里的AI编程助手,专为DeepSeek V4模型优化,体验跟Claude Code一样顺,花的钱却只有几十分之一。

“鲸鱼哥”前脚刚走,DeepSeek就曝出自己要下场做Claude Code了。

这里有个微妙的关系。“鲸鱼哥”的DeepSeek-TUI是第三方开源项目,不是DeepSeek官方的。它证明了DeepSeek V4的模型能力足够支撑一个类Claude Code的编程Agent,但产品化程度还远远不够。DeepSeek自己组建Harness团队,等于从”民间先行”转向”官方下场”。

Harness这个词本身就很有讲究。它不是随便起的名字,而是Anthropic在2025年底到2026年初推动的概念,指的是智能体领域的工程基础设施参考框架,通过系统化的工程方案将基础大模型的原始智能转化为可靠、可控、可用的智能体能力。DeepSeek用”Harness”来命名团队,等于直接对标了Anthropic的工程范式。

DeepSeek V4发布快一个月了,性价比确实强,但编程场景的产品化一直是短板。4月发布的V4预览版声称针对Claude Code进行了专项优化,还灰度上线了识图模式解决V4-Pro接入Claude Code后难以识别架构图、设计稿、错误截图的问题。但这些都是在别人的产品里做优化,不是自己的产品。

现在DeepSeek终于要自己做产品了。

说真的,国内开发者等这一天等了很久。Anthropic对中国开发者的服务确实不好,API访问不稳定、支付方式受限、中文支持弱。很多人期盼有个国产编程Agent能至少对标Claude Code。DeepSeek V4的性价比已经证明了模型层面的可行性,现在缺的就是产品化这一步。 图片

但产品化恰恰是最难的一步。Claude Code的成功不只是因为Claude模型强,更因为Anthropic在工程层面做了大量工作,从上下文管理到工具调用到多步骤任务编排。DeepSeek组建Harness团队,说明他们也意识到了这个问题。模型能力只是起点,工程能力才是终点。

20万星不靠模型,靠”怎么用模型”

最后说superpowers。这条线可能是三条里最深远的。

obra/superpowers,GitHub Trending榜首,198,582星,单日新增1,422颗。近20万星是什么概念?几乎等价于两个中型开源社区带来的流量,足以让一家中等规模的AI创业公司在一周内完成冷启动。

而拿到这份关注度的,不是模型,不是工具,是一套AI编程脚手架。

superpowers的核心是20余个经过实战检验的Skill。装上它之后,AI编程助手会像资深工程师一样工作,先问聪明的问题,生成可读的spec供人类审批,然后拆分成精确的2-5分钟小任务,每个任务有确切的文件路径、完整的代码需求和验证步骤。每个任务分配全新的子Agent执行,输出经过两轮审查,一次看是否符合spec,一次看代码质量。TDD环节将失败测试、最少代码和重构的过程强制化。

核心理念叫”Process over Prompt”,流程大于提示词。

这不是”写个贪吃蛇”那种玩具用法,而是真正的工程级自动化。它不跟Claude Code、Cursor、Copilot竞争,而是让它们变得更好用。它填补的是AI编程领域的结构性空白,不是让AI更聪明,而是让AI在工程环境里更可靠。

它的爆火踩中了开发者越来越头疼的两个问题,如何让AI写代码时不跑偏,以及AI写完之后如何确认它写对了。

这两个问题不是靠更强的模型就能解决的。再强的模型,没有工程纪律约束,照样一口气产出几百行代码然后在debug时无从下手。superpowers的价值在于,它用确定的流程对抗AI输出的不确定性。

更有意思的是,superpowers不是孤例。GitHub上的Agent基础设施项目正在经历一轮爆发。agents-best-practices、codex-complexity-optimizer双双登上Trending榜单,前者用于Codex、Claude Code等编码智能体的运行时框架设计,后者为Codex专属的代码库复杂度分析和性能优化。还有OpenClaw月涨21万星。

AI科技评论说得准确,“当模型能力趋同,竞争焦点就从’谁的模型更聪明’转向了’谁的工程标准更可能被开发者接受’“。这个转移是零和的。一旦某个范式被足够多的开发者采用,它就会形成锁定效应,成为后来者很难再改变的行业习惯。 图片

Anthropic收Stainless是控制Agent连接外部系统的底层协议,OpenAI把Codex集成到ChatGPT移动端是抢远程指挥中心,微软整合Agentic Workflows是用云服务定义工程边界。superpowers在开源社区狂揽20万星,是民间力量争夺工程范式的定义权。

这是同一场标准卡位战的四种不同打法。

三条线交汇,编程智能体的新格局

把这三件事放在一起,格局变化非常清晰。

Cursor发布Composer 2.5,是从”用别人的模型”转向”自己掌控模型命运”。它不再满足于做Anthropic模型上的产品层,开始认真争取在模型竞赛中掌握自己的主动权。1/10的成本追平Opus,是对整个AI编程市场定价体系的冲击。

DeepSeek组建Harness团队,是从”提供模型让别人做产品”转向”自己做产品”。V4的性价比已经够了,编程场景的产品化是最后的短板。一旦补上,国内开发者终于有一个不依赖Anthropic的编程Agent选择。

superpowers近20万星,是从”谁的模型更强”转向”怎么用模型更靠谱”。它代表的趋势是,编程智能体的竞争维度正在增加。不只是模型能力,还有工程标准、工作流规范、可验证性。 图片

我自己的感受是,我们正在经历编程智能体从”工具”到”产品”再到”基础设施”的跃迁。

Cursor反击说明,光有好的IDE体验不够了,你必须有自己的模型。DeepSeek下场说明,光有好的模型不够了,你必须有自己的产品。superpowers爆火说明,光有好的产品不够了,你必须有可靠的工程标准。

每一层竞争都比上一层更难,但也更持久。模型差距几个月就能追上,但工程标准的锁定效应可能持续几年甚至十几年。

编程智能体的战争才刚刚开始。

AI 马斯克 DeepSeek