远见中国
未来经济坐标系

0%完成率,Claude、GPT、Gemini 全灭,SWE-Bench作者新作把AI圈干沉默了

SWE-Bench 的创建者,刚刚又放出了一个地狱级新 benchmark。 结果相当震撼: Claude Opus 4.7、GPT-5.4、GPT-5 mini、Gemini 3.1 Pro、Gemini 3 Flash——这一代几乎所有最强的一线模型,全部 0% 完成率。 没有一个模型,能够真正完整重建一个软件项目。 这意味着什么? 今天的大模型,已经很会写代码了,但依然不会做软件工程。 最近,Meta FAIR 联合斯坦福、哈佛等机构发布了一项很有意思的新 benchmark,本质上是在重新定义 AI Coding 的评估方式: ProgramBench: Can Language Models Rebuild Programs From Scratch? 过去的大模型编程 benchmark,大多测的是局部能力:补全函数、修复 bug、实现 feature……本质上,仍然是在已有代码结构里做局部修改。 而 ProgramBench 第一次把问题推进到了真正的软件工程层面:如果只给 AI 一个程序的功能描述和 usage docs,它能不能像真正的工程师一样,从零开始,重新构建一

查看原文 →

(来源:36氪深度,2026-05-07)

把这条线索转化为下一步行动

进入远见OS,将产业信息、政策机会、资本动态或项目线索转化为融资材料、投资判断、项目 Pipeline 或 FA 交易流程。

赞(0) 打赏
未经允许不得转载:远见网 » 0%完成率,Claude、GPT、Gemini 全灭,SWE-Bench作者新作把AI圈干沉默了
分享到
讨论区

评论 抢沙发

围绕文章展开讨论,保持简洁、具体、可引用。

远见网

全新产业投资平台

登录

找回密码

注册

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续提供更多优质内容,让我们一起创建更加美好的网络世界!

支付宝扫一扫

微信扫一扫