给你一份FFmpeg的使用文档,和一个编译好的可执行文件。 现在,从零把整个程序重新写出来。 这就是ProgramBench给全球顶级AI出的题。 昨天刚发布,出自SWE-Bench原班人马之手,Meta、斯坦福、哈佛三家联手打造。 200个软件项目。9个顶级模型。通过率,0%! 共同一作John Yang,斯坦福在读博士,同时也是SWE-Bench和SWE-agent的创建者 不是修bug,是从零造软件 过去一年,「让AI Agent从零造软件」的案例报道越来越多。 Anthropic用一组平行Claude写了个C编译器,Cursor发博客讲长时间自主编程,Epoch AI的MirrorCode也在做类似的事。 但这些案例有个共同问题,每次只测几个项目,脚手架都是手工调优的。 相比之下,ProgramBench把这件事正规化了。 200个任务,统一脚手架,系统性反作弊,一把拉到benchmark的标准。 论文地址:https://programbench.com/static/paper.pdf 在之前的测试中,SWE-Bench会给你一个现成的代码库,告诉你哪里有bug或者需要加什
(来源:36氪深度,2026-05-06)

远见网








