远见中国

刷榜AI全挂了,Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0分

给你一份FFmpeg的使用文档,和一个编译好的可执行文件。 现在,从零把整个程序重新写出来。 这就是ProgramBench给全球顶级AI出的题。 昨天刚发布,出自SWE-Bench原班人马之手,Meta、斯坦福、哈佛三家联手打造。 200个软件项目。9个顶级模型。通过率,0%! 共同一作John Yang,斯坦福在读博士,同时也是SWE-Bench和SWE-agent的创建者 不是修bug,是从零造软件 过去一年,「让AI Agent从零造软件」的案例报道越来越多。 Anthropic用一组平行Claude写了个C编译器,Cursor发博客讲长时间自主编程,Epoch AI的MirrorCode也在做类似的事。 但这些案例有个共同问题,每次只测几个项目,脚手架都是手工调优的。 相比之下,ProgramBench把这件事正规化了。 200个任务,统一脚手架,系统性反作弊,一把拉到benchmark的标准。 论文地址:https://programbench.com/static/paper.pdf 在之前的测试中,SWE-Bench会给你一个现成的代码库,告诉你哪里有bug或者需要加什

查看原文 →

(来源:36氪深度,2026-05-06)

把这条线索转化为下一步行动

进入远见OS,将产业信息、政策机会、资本动态或项目线索转化为融资材料、投资判断、项目 Pipeline 或 FA 交易流程。

赞(0) 打赏
未经允许不得转载:远见网 » 刷榜AI全挂了,Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0分
分享到

评论 抢沙发

远见网

全新产业投资平台

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续提供更多优质内容,让我们一起创建更加美好的网络世界!

支付宝扫一扫

微信扫一扫

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续提供更多优质内容,让我们一起创建更加美好的网络世界!

支付宝扫一扫

微信扫一扫

登录

找回密码

注册