Home
avatar

杨晏

AI安全变天了:从「帮你找bug」到「替你修好它」

随笔

AI安全变天了:从「帮你找bug」到「替你修好它」

AI安全变天了:从「帮你找bug」到「替你修好它」6月22日,OpenAI发了一条没上热搜的消息,但安全圈都看到了。GPT-5.5-Cyber,一个专门为网络安全设计的模型,在CyberGym基准测试中拿到了85.6%。比GPT-5.5多了不到4个百分点,但分数不是重点。重点是它能做的事变了:不只是

AI编程的终极考题:不是写代码,而是从零造出一个软件

随笔

AI编程的终极考题:不是写代码,而是从零造出一个软件

AI编程的终极考题:不是写代码,而是从零造出一个软件1.一个让AI圈沉默的基准测试5月初,MetaFAIR联合斯坦福和哈佛发布了一个叫ProgramBench的基准测试。规则很简单:给AI一个编译好的二进制文件和它的使用文档,让它从零开始重建整个软件项目。不能联网,不能看源码。结果呢?所有模型,0%

你的AI助手每个月烧掉几百美元,这个工具说能省90%

随笔

你的AI助手每个月烧掉几百美元,这个工具说能省90%

你的AI助手每个月烧掉几百美元,这个工具说能省90%上周有个朋友问我,他每个月光是用Cursor写代码就要花将近300美元的token费用。不是模型贵,是上下文太能吃了。一个代码搜索任务扔进去,光日志输出就几万token。我后来找到了一个叫Headroom的开源工具,它干的事情很简单:在AIAgen

AI编程赛道的三股资本力量

AI热点

AI编程赛道的三股资本力量

AI编程赛道的三股资本力量SpaceX上市了。750亿美元募资,1.77万亿估值,人类商业史上最大的IPO。同一天,大洋彼岸的另一条消息没怎么被关注:xAI,马斯克花了500亿美元堆出来的AI公司,在5月7日已经解散了,并入SpaceX。一边是拿到史上最夸张估值,一边是史上最昂贵的AI公司之一被并入

国产模型第一次形成了完整替代方案

AI热点

国产模型第一次形成了完整替代方案

国产模型第一次形成了完整替代方案MiniMaxM3开源了。6月12日GitHub仓库开放下载,华为云同一天完成昇腾算力适配。没有预告,没有发布会,直接扔了。编程能力打平GPT-5.5SWE-BenchPro,这个benchmark让模型自己读GitHubissue、写代码、跑测试,是衡量编程能力最权

国产开源模型,替掉闭源的时刻到了

随笔

国产开源模型,替掉闭源的时刻到了

国产开源模型,替掉闭源的时刻到了6月12日,MiniMaxM3正式开源了。上次聊它还是6月1日刚发布,十天不到,权重就放出来了。这才是重点。一个SWE-BenchPro**59.0%**的模型不是论文展览品,不是”即将开源”的期货,是你现在就能下载的东西。M3,三个「唯一」撑起来的国内开源模型不少,

## 一张成绩单,两个意外

AI热点

## 一张成绩单,两个意外

一张成绩单,两个意外6月1日,MiniMax扔了一颗炸弹。SWE-BenchPro,编程领域最硬核的评测基准,MiniMaxM3拿了59.0%。这个数字什么概念?超过GPT-5.5,超过Gemini3.1Pro。排在它前面的只剩一个,ClaudeOpus4.7。更让人意外的是,M3是开源的。一个国产

国产模型登顶,世界安静了

随笔

国产模型登顶,世界安静了

国产模型登顶,世界安静了2026年6月,中国AI在一夜之间完成了从追赶到领跑的转身。三个信号同时炸开,每一个都足够改变游戏规则。MiniMaxM3:开源模型第一次站在了山顶6月1日,MiniMax发布M3模型,SWE-BenchPro基准测试拿到59%,超过GPT-5.5和Gemini3.1Pro。

12 4