0%完成率，Claude、GPT、Gemini 全灭，SWE-Bench作者新作把AI圈干沉默了

SWE-Bench 的创建者，刚刚又放出了一个地狱级新 benchmark。结果相当震撼： Claude Opus 4.7、GPT-5.4、GPT-5 mini、Gemini 3.1 Pro、Gemini 3 Flash——这一代几乎所有最强的一线模型，全部 0% 完成率。没有一个模型，能够真正完整重建一个软件项目。这意味着什么？今天的大模型，已经很会写代码了，但依然不会做软件工程。最近，Meta FAIR 联合斯坦福、哈佛等机构发布了一项很有意思的新 benchmark，本质上是在重新定义 AI Coding 的评估方式： ProgramBench: Can Language Models Rebuild Programs From Scratch? 过去的大模型编程 benchmark，大多测的是局部能力：补全函数、修复 bug、实现 feature……本质上，仍然是在已有代码结构里做局部修改。而 ProgramBench 第一次把问题推进到了真正的软件工程层面：如果只给 AI 一个程序的功能描述和 usage docs，它能不能像真正的工程师一样，从零开始，重新构建一

查看原文 →

（来源：36氪深度，2026-05-07）