AI安全变天了:从「帮你找bug」到「替你修好它」
AI安全变天了:从「帮你找bug」到「替你修好它」

6月22日,OpenAI发了一条没上热搜的消息,但安全圈都看到了。
GPT-5.5-Cyber,一个专门为网络安全设计的模型,在CyberGym基准测试中拿到了85.6%。比GPT-5.5多了不到4个百分点,但分数不是重点。重点是它能做的事变了:不只是发现漏洞,而是理解代码、验证问题、生成补丁、跑测试、产出证据,一条龙。
OpenAI自己的判断是,安全的瓶颈已经从「发现漏洞」转向了「修复漏洞」。

一个模型能干完一个安全团队的活
先看GPT-5.5-Cyber的能力。
它能在一个巨大的代码库里识别哪些组件跟安全相关,追踪一段有漏洞的代码到底从哪条路径被调到,然后在受控环境里验证这个漏洞是不是真的。确认之后,它会生成一个定向补丁,跑一遍测试确认没有引入新问题,最后把整条证据链整理出来交给人类审查。
以前的安全工具是”我告诉你这里有个洞”。现在是”洞在这里,原因是什么,我补好了,测试过了,你看看行不行”。
几个基准测试数据:CyberGym 85.6%(衡量能不能在软件环境里复现已知漏洞),ExploitGym 39.5%(能不能把已知漏洞变成实际可用的攻击代码),SEC-bench Pro 69.8%(复杂软件里的长程漏洞发现和概念验证)。全面超过GPT-5.5。
这个方向去年还像是PPT,今年6月变成了产品。

Codex Security:3000万commit里筛出来的真实漏洞
光有模型不够,还得有能跑起来的工作流。
OpenAI的Codex Security从今年3月上线研究预览到现在,已经扫描了超过3000万个commit,覆盖了3万多个代码库。人工审查员确认了超过7万个发现是真的修好了,另外还有50万个发现被自动判定为已修复。
50万个自动确认的修复。 这个数字意味着什么?意味着安全审查的主流程第一次可以不是”人肉看报告”。
Codex Security的逻辑也很清楚:不是替代安全工程师,而是让每个开发者身边相当于坐了一个。它能理解你这个项目的代码和威胁模型(如果没有,它会帮你生成一个),识别漏洞,判断受影响的代码到不可达,收集验证步骤,生成补丁,跑测试。人仍然控制哪些发现要去查、哪些改动要上线、哪些信息要公开。

Patch the Planet:开源世界的免费安全审计
同一时间,OpenAI还宣布了一个叫Patch the Planet的计划。
跟Trail of Bits、HackerOne、Calif合作,给全球最重要的开源项目做安全审计+修复。不是那种”我们发现了问题你自己修”的老套路,而是AI找到问题、安全工程师审核、生成补丁、测试验证、协调披露,一条龙服务。
已经有30多个开源项目加入了,包括cURL、Go、Python、Sigstore、pyca/cryptography——这些名字你可能不熟悉,但它们是你每天用的互联网基础设施的底座。
Trail of Bits派了安全工程师全职干这件事,在19个项目里已经发现了数百个安全问题,合并了几十个patch。
几个细节很能说明效率变化:
一个fuzzing实验室,一天搭好了。 覆盖几十个入口点、多种编译变体、多个平台、各种测试种子。手动做,Trail of Bits估计至少要几周。AI负责扩展覆盖范围、瞄准边缘情况、过滤弱候选。人负责定方向和调prompt。
差异测试,从几周压到几天。 同一个协议的不同实现,行为应该一致。不一致就可能出bug。以前要手写一堆胶水代码把各个实现连到同一个测试框架上。Codex生成并迭代这些代码,多个实现一起跑fuzzing,筛出真正值得专家看的候选。

为什么现在才发生
两个条件同时成熟了。
模型能力到了。 大模型第一次能在大代码库里做深度安全分析——不只是模式匹配,而是理解代码逻辑、追踪数据流、推理攻击路径。GPT-5.5-Cyber在SEC-bench Pro上接近70%,这个任务需要的是真正的推理,不是背答案。
工具链通了。 Codex Security把模型能力包装成了可重复的工作流:扫描→验证→补丁→测试→证据→集成。模型再强,没有工具链就是Demo。
还有一个容易被忽略的点:AI让漏洞发现变快了,但修复没跟上。 安全研究员现在面临的问题不是找不到漏洞,而是太多漏洞看不过来。OpenAI的判断是,瓶颈已经从发现转移到了修复。所以GPT-5.5-Cyber的核心设计目标不是”找更多”,而是”修得更快”。
对普通开发者意味着什么
短期来看,你不需要焦虑”AI要替代安全工程师”。
GPT-5.5-Cyber目前只对受信任的防御者开放,Codex Security需要权限。它不是武器,是盾牌。
但工作方式确实在变。以后写代码的时候,可能有一个AI助手不只是帮你补全代码,还在后台默默扫你刚写的每一行——有没有注入风险、有没有权限校验遗漏、有没有不安全的依赖。发现问题的同时给你一个补丁建议,你review一下就能合入。
安全不再是一个季度做一次审计的事,而是写代码那一刻就开始的事。 
AI代理真正改变世界的方式,大概就是这样的,不是某个惊天动地的发布,而是悄悄把一个行业的底层工作流重写了一遍。