随笔六月 25, 2026AI安全变天了:从「帮你找bug」到「替你修好它」AI安全变天了:从「帮你找bug」到「替你修好它」6月22日,OpenAI发了一条没上热搜的消息,但安全圈都看到了。GPT-5.5-Cyber,一个专门为网络安全设计的模型,在CyberGym基准测试中拿到了85.6%。比GPT-5.5多了不到4个百分点,但分数不是重点。重点是它能做的事变了:不只是随笔
随笔六月 24, 202672小时:Claude Fable 5从"地表最强"到全球下架,谁来填这个真空?72小时:ClaudeFable5从”地表最强”到全球下架,谁来填这个真空?6月9日到6月13日,72小时这是AI商业史上最短命的旗舰模型。6月9日,Anthropic发布了ClaudeFable5和Mythos5。SWE-bench49.2%,HumanEval96.4%,智谱最好的编程模型GLM随笔
随笔六月 23, 2026AI编程的终极考题:不是写代码,而是从零造出一个软件AI编程的终极考题:不是写代码,而是从零造出一个软件1.一个让AI圈沉默的基准测试5月初,MetaFAIR联合斯坦福和哈佛发布了一个叫ProgramBench的基准测试。规则很简单:给AI一个编译好的二进制文件和它的使用文档,让它从零开始重建整个软件项目。不能联网,不能看源码。结果呢?所有模型,0%随笔
随笔六月 22, 2026你的AI助手每个月烧掉几百美元,这个工具说能省90%你的AI助手每个月烧掉几百美元,这个工具说能省90%上周有个朋友问我,他每个月光是用Cursor写代码就要花将近300美元的token费用。不是模型贵,是上下文太能吃了。一个代码搜索任务扔进去,光日志输出就几万token。我后来找到了一个叫Headroom的开源工具,它干的事情很简单:在AIAgen随笔
AI热点六月 18, 2026SpaceX 600亿美元吞下Cursor,AI编程赛道变天了SpaceX600亿美元吞下Cursor,AI编程赛道变天了6月16日,SpaceX官宣600亿美元全股收购Cursor(Anysphere),Q3完成交割。Cursor成为SpaceX全资子公司。这是2026年迄今最大的初创公司并购案。距离SpaceX在纳斯达克敲钟刚过去四天。上市首日开盘涨29%CursorSpaceX马斯克OpenAIDeepSeek
AI热点六月 17, 2026AI编程赛道的三股资本力量AI编程赛道的三股资本力量SpaceX上市了。750亿美元募资,1.77万亿估值,人类商业史上最大的IPO。同一天,大洋彼岸的另一条消息没怎么被关注:xAI,马斯克花了500亿美元堆出来的AI公司,在5月7日已经解散了,并入SpaceX。一边是拿到史上最夸张估值,一边是史上最昂贵的AI公司之一被并入马斯克.Claude.DeepSeek
AI热点六月 16, 2026国产模型第一次形成了完整替代方案国产模型第一次形成了完整替代方案MiniMaxM3开源了。6月12日GitHub仓库开放下载,华为云同一天完成昇腾算力适配。没有预告,没有发布会,直接扔了。编程能力打平GPT-5.5SWE-BenchPro,这个benchmark让模型自己读GitHubissue、写代码、跑测试,是衡量编程能力最权MiniMaxOpenAIChatGPT
随笔六月 15, 2026国产开源模型,替掉闭源的时刻到了国产开源模型,替掉闭源的时刻到了6月12日,MiniMaxM3正式开源了。上次聊它还是6月1日刚发布,十天不到,权重就放出来了。这才是重点。一个SWE-BenchPro**59.0%**的模型不是论文展览品,不是”即将开源”的期货,是你现在就能下载的东西。M3,三个「唯一」撑起来的国内开源模型不少,随笔
AI热点六月 14, 2026## 一张成绩单,两个意外一张成绩单,两个意外6月1日,MiniMax扔了一颗炸弹。SWE-BenchPro,编程领域最硬核的评测基准,MiniMaxM3拿了59.0%。这个数字什么概念?超过GPT-5.5,超过Gemini3.1Pro。排在它前面的只剩一个,ClaudeOpus4.7。更让人意外的是,M3是开源的。一个国产MiniMax
AI热点六月 13, 2026国产模型重写了AI编程的工具链国产模型重写了AI编程的工具链三张成绩单,同一句潜台词过去两周,三组数字几乎同时甩到了桌上。MiniMaxM3,SWE-BenchPro59.0%,超过GPT-5.5(58.6%)和Gemini3.1Pro。华为云昇腾算力适配同步完成,6月12日官宣。Qwen3.6-Plus,Terminal-BeAIDeepSeekMiniMaxOpenCodeClaude
AI热点六月 12, 2026Claude Fable 5 vs MiniMax M3 一个上锁,一个开源,谁才是编程的未来?ClaudeFable5vsMiniMaxM3一个上锁,一个开源,谁才是编程的未来?80.3%vs59%,差距比想象中小6月9日,Anthropic扔了一颗炸弹。ClaudeFable5,SWE-BenchPro80.3%,GPT-5.5是58.6%,自家上代Opus4.8是69.2%。6月1日,MClaudeMiniMaxAnthropic
AI热点六月 11, 2026MiniMax M3 国产开源模型第一次站在了山顶MiniMaxM3国产开源模型第一次站在了山顶2026年6月1日,MiniMax发布M3。没有预热,没有发布会直播。一份技术报告直接丢到网上,模型权重直接开源。然后整个AI圈安静了。59%,超过GPT-5.5SWE-BenchPro,目前最权威的编程能力基准测试。M3拿到59.0%,超过GPT-5.AIMiniMaxM3国产大模型
随笔六月 10, 2026国产模型登顶,世界安静了国产模型登顶,世界安静了2026年6月,中国AI在一夜之间完成了从追赶到领跑的转身。三个信号同时炸开,每一个都足够改变游戏规则。MiniMaxM3:开源模型第一次站在了山顶6月1日,MiniMax发布M3模型,SWE-BenchPro基准测试拿到59%,超过GPT-5.5和Gemini3.1Pro。随笔
AI热点六月 9, 2026MiniMax M3 + DeepSeek 降价 + 微软MAI — 公众号正文MiniMaxM3+DeepSeek降价+微软MAI—公众号正文「国产模型登顶:代码超越GPT-5.5,价格砍到地板上」6月1日,MiniMax发布了旗舰大模型M3。几个关键数据值得说。SWE-BenchPro上59.0%,超过GPT-5.5。同时超过了Gemini3.1Pro,接近ClaudeOpAIMiniMaxDeepSeek微软
AI热点六月 8, 2026Claude Opus 4.8发布了,但我最在意的是它学会了"我不知道"ClaudeOpus4.8发布了,但我最在意的是它学会了”我不知道”5月28日,Anthropic发布了ClaudeOpus4.8。距离上一代Opus4.7发布,只隔了41天。大模型通常是半年一更,这次节奏明显不对劲。同一天,Anthropic宣布完成650亿美元H轮融资,投后估值9650亿美元,超AIClaudeAnthropicOpenAI