0%完成率,Claude、GPT、Gemini 全灭,SWE-Bench作者新作把AI圈干沉默了

SWE-Bench 的创建者,刚刚又放出了一个地狱级新 benchmark。 结果相当震撼: Claude Opus 4.7、GPT-5.4、GPT-5 mini、Gemini 3.1 Pro、Gemini 3 Flash——这一代几乎所有最强的一线模型,全部 0% 完成率。 没有一个模型,能够真正完整重建一个软件项目。 这意味着什么? 今天的大模型,已经很会写代码了,但依然不会做软件工程。 最近,Meta FAIR 联合斯坦福、哈佛等机构发布了一项很有意思的新 benchmark,本质上是在重新定义 AI Coding 的评估方式: ProgramBench: Can Language Models Rebuild Programs From Scratch? 过去的大模型编程 benchmark,大多测的是局部能力:补全函数、修复 bug、实现 feature……本质上,仍然是在已有代码结构里做局部修改。 而 ProgramBench 第一次把问题推进到了真正的软件工程层面:如果只给 AI 一个程序的功能描述和 usage docs,它能不能像真正的工程师一样,从零开始,重新构建一

查看原文 →

(来源:36氪深度,2026-05-07)

赞(5) 支持本站
分享到

评论 抢沙发

支持本站持续更新

如果这篇内容对你有帮助,欢迎扫码支持。

支付宝扫一扫

微信扫一扫

登录

找回密码

注册