刷榜AI全挂了，Meta斯坦福地狱级测试，GPT/Claude/Gemini交出0分

给你一份FFmpeg的使用文档，和一个编译好的可执行文件。现在，从零把整个程序重新写出来。这就是ProgramBench给全球顶级AI出的题。昨天刚发布，出自SWE-Bench原班人马之手，Meta、斯坦福、哈佛三家联手打造。 200个软件项目。9个顶级模型。通过率，0%！共同一作John Yang，斯坦福在读博士，同时也是SWE-Bench和SWE-agent的创建者不是修bug，是从零造软件过去一年，「让AI Agent从零造软件」的案例报道越来越多。 Anthropic用一组平行Claude写了个C编译器，Cursor发博客讲长时间自主编程，Epoch AI的MirrorCode也在做类似的事。但这些案例有个共同问题，每次只测几个项目，脚手架都是手工调优的。相比之下，ProgramBench把这件事正规化了。 200个任务，统一脚手架，系统性反作弊，一把拉到benchmark的标准。论文地址：https://programbench.com/static/paper.pdf 在之前的测试中，SWE-Bench会给你一个现成的代码库，告诉你哪里有bug或者需要加什

查看原文 →

（来源：36氪深度，2026-05-06）