你的AI助手每个月烧掉几百美元，这个工具说能省90%

上周有个朋友问我，他每个月光是用 Cursor 写代码就要花将近 300 美元的 token 费用。不是模型贵，是上下文太能吃了。一个代码搜索任务扔进去，光日志输出就几万 token。

我后来找到了一个叫 Headroom 的开源工具，它干的事情很简单：在 AI Agent 和 LLM 之间加一层压缩器，上下文进去之前先帮你瘦身。

结果呢？代码搜索省 92%，SRE 故障排查省 92%，GitHub issue 分流省 73%。

怎么做到的

Headroom 是 Netflix 工程师 Tejas Chopra 开发的，6月初开源，现在 GitHub 已经 10k+ star。它的思路不是让你换模型或者减少使用方式，而是在数据到达模型之前做智能压缩。

它内置了 6 种专用压缩算法：JSON 压缩器处理结构化日志，AST 感知压缩器处理代码，Kompress-base 处理自然语言文本。每种算法针对不同数据类型做了优化，不是简单截断或者摘要。

最关键的一点——压缩是可逆的。原文缓存在本地，模型觉得信息不够用的时候可以通过 headroom_retrieve 按需取回。不是那种”压缩完就丢了”的暴力方案。

安装就一行命令：

pip install "headroom-ai[all]"

接入方式有三种，选一个适合你的：

零代码改动： 加一个代理层，任何语言都能用。

headroom proxy --port 8787

包装现有 Agent： 一行命令把 Claude Code、Cursor、Codex 包起来。

headroom wrap claude

MCP 接入： 提供 headroom_compress、headroom_retrieve、headroom_stats 三个 MCP 工具，任何支持 MCP 的 Agent 直接调用。

还有个挺有意思的功能——跨 Agent 共享记忆。你用 Claude Code 和 Cursor 的时候，压缩过的上下文可以自动去重共享，不用每个 Agent 各存一份。

Headroom 还做了一件很实际的事：压缩模型的输出 token。

很多人没注意过，模型的回复也是按 token 计费的。而且输出 token 通常比输入贵 5 倍（Opus 类模型就是这个比例）。Headroom 发现模型回复里有大量废话——“好的，让我来……”这种开场白、重复打印你已经看过的代码、对简单步骤做深度思考。

它会自动修剪这些冗余输出，从代理层直接处理，不用你改任何配置。

还有个功能叫 headroom learn，会分析你失败的 Agent 会话，把教训写到 CLAUDE.md 或者 AGENTS.md 里。相当于 Agent 自己复盘，下次不再犯同样的错。

这是我最关心的问题。压缩了 90% 的 token，回答质量会不会崩？

他们跑了标准 benchmark 测试：GSM8K 数学题，压缩前后准确率完全一致（0.870）。TruthfulQA 事实问答，压缩后反而从 0.530 提到了 0.560。工具调用（BFCL）在 32% 压缩率下保持了 97% 的精度。

换句话说，省的是垃圾 token，保留的是有用信息。

Headroom 切中的痛点很真实。用 AI Agent 写代码、做运维、做调研，token 消耗是个隐性成本。平时感觉不到，月底看账单才心疼。

Headroom 的好处在于它不改变你的使用习惯。不用换模型，不用改 Agent，不用重新学任何东西。插上就能用，用了就能省。

唯一需要注意的是，它跑在本地，压缩和解压需要一点计算资源。但对于省下的 token 费用来说，这点算力成本几乎可以忽略。

项目地址：github.com/chopratejas/headroom