SWE-Bench 的创建者,刚刚又放出了一个地狱级新 benchmark。 结果相当震撼: Claude Opus 4.7、GPT-5.4、GPT-5 mini、Gemini 3.1 Pro、Gemini 3 Flash——这一代几乎所有最强的一线模型,全部 0% 完成率。 没有一个模型,能够真正完整重建一个软件项目。 这意味着什么? 今天的大模型,已经很会写代码了,但依然不会做软件工程。 最近,Meta FAIR 联合斯坦福、哈佛等机构发布了一项很有意思的新 benchmark,本质上是在重新定义 AI Coding 的评估方式: ProgramBench: Can Language Models Rebuild Programs From Scratch? 过去的大模型编程 benchmark,大多测的是局部能力:补全函数、修复 bug、实现 feature……本质上,仍然是在已有代码结构里做局部修改。 而 ProgramBench 第一次把问题推进到了真正的软件工程层面:如果只给 AI 一个程序的功能描述和 usage docs,它能不能像真正的工程师一样,从零开始,重新构建一
(来源:36氪深度,2026-05-07)

远见网
评论 抢沙发
围绕文章展开讨论,保持简洁、具体、可引用。