杨晏

AI安全变天了：从「帮你找bug」到「替你修好它」

随笔六月 25, 2026

AI安全变天了：从「帮你找bug」到「替你修好它」

AI安全变天了：从「帮你找bug」到「替你修好它」6月22日，OpenAI发了一条没上热搜的消息，但安全圈都看到了。GPT-5.5-Cyber，一个专门为网络安全设计的模型，在CyberGym基准测试中拿到了85.6%。比GPT-5.5多了不到4个百分点，但分数不是重点。重点是它能做的事变了：不只是

72小时：Claude Fable 5从"地表最强"到全球下架，谁来填这个真空？

随笔六月 24, 2026

72小时：Claude Fable 5从"地表最强"到全球下架，谁来填这个真空？

72小时：ClaudeFable5从”地表最强”到全球下架，谁来填这个真空？6月9日到6月13日，72小时这是AI商业史上最短命的旗舰模型。6月9日，Anthropic发布了ClaudeFable5和Mythos5。SWE-bench49.2%，HumanEval96.4%，智谱最好的编程模型GLM

AI编程的终极考题：不是写代码，而是从零造出一个软件

随笔六月 23, 2026

AI编程的终极考题：不是写代码，而是从零造出一个软件

AI编程的终极考题：不是写代码，而是从零造出一个软件1.一个让AI圈沉默的基准测试5月初，MetaFAIR联合斯坦福和哈佛发布了一个叫ProgramBench的基准测试。规则很简单：给AI一个编译好的二进制文件和它的使用文档，让它从零开始重建整个软件项目。不能联网，不能看源码。结果呢？所有模型，0%

你的AI助手每个月烧掉几百美元，这个工具说能省90%

随笔六月 22, 2026

你的AI助手每个月烧掉几百美元，这个工具说能省90%

你的AI助手每个月烧掉几百美元，这个工具说能省90%上周有个朋友问我，他每个月光是用Cursor写代码就要花将近300美元的token费用。不是模型贵，是上下文太能吃了。一个代码搜索任务扔进去，光日志输出就几万token。我后来找到了一个叫Headroom的开源工具，它干的事情很简单：在AIAgen

SpaceX 600亿美元吞下Cursor，AI编程赛道变天了

AI热点六月 18, 2026

SpaceX 600亿美元吞下Cursor，AI编程赛道变天了

SpaceX600亿美元吞下Cursor，AI编程赛道变天了6月16日，SpaceX官宣600亿美元全股收购Cursor（Anysphere），Q3完成交割。Cursor成为SpaceX全资子公司。这是2026年迄今最大的初创公司并购案。距离SpaceX在纳斯达克敲钟刚过去四天。上市首日开盘涨29%

AI热点六月 17, 2026

AI编程赛道的三股资本力量

AI编程赛道的三股资本力量SpaceX上市了。750亿美元募资，1.77万亿估值，人类商业史上最大的IPO。同一天，大洋彼岸的另一条消息没怎么被关注：xAI，马斯克花了500亿美元堆出来的AI公司，在5月7日已经解散了，并入SpaceX。一边是拿到史上最夸张估值，一边是史上最昂贵的AI公司之一被并入

国产模型第一次形成了完整替代方案

AI热点六月 16, 2026

国产模型第一次形成了完整替代方案

国产模型第一次形成了完整替代方案MiniMaxM3开源了。6月12日GitHub仓库开放下载，华为云同一天完成昇腾算力适配。没有预告，没有发布会，直接扔了。编程能力打平GPT-5.5SWE-BenchPro，这个benchmark让模型自己读GitHubissue、写代码、跑测试，是衡量编程能力最权

国产开源模型，替掉闭源的时刻到了

随笔六月 15, 2026

国产开源模型，替掉闭源的时刻到了

国产开源模型，替掉闭源的时刻到了6月12日，MiniMaxM3正式开源了。上次聊它还是6月1日刚发布，十天不到，权重就放出来了。这才是重点。一个SWE-BenchPro59.0%的模型不是论文展览品，不是”即将开源”的期货，是你现在就能下载的东西。M3，三个「唯一」撑起来的国内开源模型不少，

AI热点六月 14, 2026

## 一张成绩单，两个意外

一张成绩单，两个意外6月1日，MiniMax扔了一颗炸弹。SWE-BenchPro，编程领域最硬核的评测基准，MiniMaxM3拿了59.0%。这个数字什么概念？超过GPT-5.5，超过Gemini3.1Pro。排在它前面的只剩一个，ClaudeOpus4.7。更让人意外的是，M3是开源的。一个国产

国产模型重写了AI编程的工具链

AI热点六月 13, 2026

国产模型重写了AI编程的工具链

国产模型重写了AI编程的工具链三张成绩单，同一句潜台词过去两周，三组数字几乎同时甩到了桌上。MiniMaxM3，SWE-BenchPro59.0%，超过GPT-5.5（58.6%）和Gemini3.1Pro。华为云昇腾算力适配同步完成，6月12日官宣。Qwen3.6-Plus，Terminal-Be

Claude Fable 5 vs MiniMax M3 一个上锁，一个开源，谁才是编程的未来？

AI热点六月 12, 2026

Claude Fable 5 vs MiniMax M3 一个上锁，一个开源，谁才是编程的未来？

ClaudeFable5vsMiniMaxM3一个上锁，一个开源，谁才是编程的未来？80.3%vs59%，差距比想象中小6月9日，Anthropic扔了一颗炸弹。ClaudeFable5，SWE-BenchPro80.3%，GPT-5.5是58.6%，自家上代Opus4.8是69.2%。6月1日，M

MiniMax M3 国产开源模型第一次站在了山顶

AI热点六月 11, 2026

MiniMax M3 国产开源模型第一次站在了山顶

MiniMaxM3国产开源模型第一次站在了山顶2026年6月1日，MiniMax发布M3。没有预热，没有发布会直播。一份技术报告直接丢到网上，模型权重直接开源。然后整个AI圈安静了。59%，超过GPT-5.5SWE-BenchPro，目前最权威的编程能力基准测试。M3拿到59.0%，超过GPT-5.

随笔六月 10, 2026

国产模型登顶，世界安静了

国产模型登顶，世界安静了2026年6月，中国AI在一夜之间完成了从追赶到领跑的转身。三个信号同时炸开，每一个都足够改变游戏规则。MiniMaxM3：开源模型第一次站在了山顶6月1日，MiniMax发布M3模型，SWE-BenchPro基准测试拿到59%，超过GPT-5.5和Gemini3.1Pro。

MiniMax M3 + DeepSeek 降价 + 微软MAI — 公众号正文

AI热点六月 9, 2026

MiniMax M3 + DeepSeek 降价 + 微软MAI — 公众号正文

MiniMaxM3+DeepSeek降价+微软MAI—公众号正文「国产模型登顶：代码超越GPT-5.5，价格砍到地板上」6月1日，MiniMax发布了旗舰大模型M3。几个关键数据值得说。SWE-BenchPro上59.0%，超过GPT-5.5。同时超过了Gemini3.1Pro，接近ClaudeOp

Claude Opus 4.8发布了，但我最在意的是它学会了"我不知道"

AI热点六月 8, 2026

Claude Opus 4.8发布了，但我最在意的是它学会了"我不知道"

ClaudeOpus4.8发布了，但我最在意的是它学会了”我不知道”5月28日，Anthropic发布了ClaudeOpus4.8。距离上一代Opus4.7发布，只隔了41天。大模型通常是半年一更，这次节奏明显不对劲。同一天，Anthropic宣布完成650亿美元H轮融资，投后估值9650亿美元，超