Home
avatar

杨晏

你的AI助手每个月烧掉几百美元,这个工具说能省90%

你的AI助手每个月烧掉几百美元,这个工具说能省90%

图片

上周有个朋友问我,他每个月光是用 Cursor 写代码就要花将近 300 美元的 token 费用。不是模型贵,是上下文太能吃了。一个代码搜索任务扔进去,光日志输出就几万 token。

我后来找到了一个叫 Headroom 的开源工具,它干的事情很简单:在 AI Agent 和 LLM 之间加一层压缩器,上下文进去之前先帮你瘦身。

结果呢?代码搜索省 92%,SRE 故障排查省 92%,GitHub issue 分流省 73%。 图片

怎么做到的

Headroom 是 Netflix 工程师 Tejas Chopra 开发的,6月初开源,现在 GitHub 已经 10k+ star。它的思路不是让你换模型或者减少使用方式,而是在数据到达模型之前做智能压缩。

它内置了 6 种专用压缩算法:JSON 压缩器处理结构化日志,AST 感知压缩器处理代码,Kompress-base 处理自然语言文本。每种算法针对不同数据类型做了优化,不是简单截断或者摘要。

最关键的一点——压缩是可逆的。原文缓存在本地,模型觉得信息不够用的时候可以通过 headroom_retrieve 按需取回。不是那种”压缩完就丢了”的暴力方案。 图片

实际怎么用

安装就一行命令:

pip install "headroom-ai[all]"

接入方式有三种,选一个适合你的:

零代码改动: 加一个代理层,任何语言都能用。

headroom proxy --port 8787

包装现有 Agent: 一行命令把 Claude Code、Cursor、Codex 包起来。

headroom wrap claude

MCP 接入: 提供 headroom_compress、headroom_retrieve、headroom_stats 三个 MCP 工具,任何支持 MCP 的 Agent 直接调用。

还有个挺有意思的功能——跨 Agent 共享记忆。你用 Claude Code 和 Cursor 的时候,压缩过的上下文可以自动去重共享,不用每个 Agent 各存一份。 图片

不只是省token

Headroom 还做了一件很实际的事:压缩模型的输出 token

很多人没注意过,模型的回复也是按 token 计费的。而且输出 token 通常比输入贵 5 倍(Opus 类模型就是这个比例)。Headroom 发现模型回复里有大量废话——“好的,让我来……”这种开场白、重复打印你已经看过的代码、对简单步骤做深度思考。

它会自动修剪这些冗余输出,从代理层直接处理,不用你改任何配置。

还有个功能叫 headroom learn,会分析你失败的 Agent 会话,把教训写到 CLAUDE.md 或者 AGENTS.md 里。相当于 Agent 自己复盘,下次不再犯同样的错。 图片

精度损失怎么样

这是我最关心的问题。压缩了 90% 的 token,回答质量会不会崩?

他们跑了标准 benchmark 测试:GSM8K 数学题,压缩前后准确率完全一致(0.870)。TruthfulQA 事实问答,压缩后反而从 0.530 提到了 0.560。工具调用(BFCL)在 32% 压缩率下保持了 97% 的精度。

换句话说,省的是垃圾 token,保留的是有用信息。 图片

我的判断

Headroom 切中的痛点很真实。用 AI Agent 写代码、做运维、做调研,token 消耗是个隐性成本。平时感觉不到,月底看账单才心疼。

Headroom 的好处在于它不改变你的使用习惯。不用换模型,不用改 Agent,不用重新学任何东西。插上就能用,用了就能省。

唯一需要注意的是,它跑在本地,压缩和解压需要一点计算资源。但对于省下的 token 费用来说,这点算力成本几乎可以忽略。

项目地址:github.com/chopratejas/headroom

随笔