Anthropic警告的递归AI,田渊栋新公司刚刚走出了「第一步」

一、核心背景

1、主要表现

前些天,Anthropic发布了一篇题为「When AI Builds Itself」(当AI构建自身)的文章,迅速引发广泛讨论。

文章揭示了一组令人侧目的内部数据:截至2026年5月,Anthropic代码库中超过80%的代码已由Claude撰写,工程师每日合并的代码量是2024年的8倍;

在一项内部测试中,Claude将一段训练代码的运行速度从基准提升了约52倍,而一名有经验的人类研究员通常需要4到8小时才能达到4倍加速。

Anthropic将这条轨迹指向一个更深的目的地:「 递归自我改进 」——AI系统自主设计、构建和训练自身后继版本,人类不再驱动每一步。

值得关注的是,该公司还呼吁行业协调,在递归自我改进时刻到来时拥有暂缓乃至临时叫停前沿AI开发的选项。

并且Anthropic已经在这么做了:限制最新的Claude Fable 5被用于研发前沿AI。

而现在,Recursive Superintelligence宣布向自动化AI研究走出了第一步。

这家由田渊栋联合创立的新公司刚刚结束隐身状态仅一个月,如今就发布了第一项公开技术成果。

2、关键变化

他们打造了一个开放式的自动化知识发现系统,并在三个基准测试上取得了SOTA结果。

简单来说,他们成功做到了让AI替你跑实验。

https://x.com/tydsh/status/2065062838255649082

Recursive这第一项公开技术成果名为 「First Steps Toward Automated AI Research」(迈向自动化AI研究的第一步)。

推文:https://x.com/Recursive_SI/status/2064980090702962699

仓库地址:https://github.com/recursive-org/first-steps-toward-automated-ai-research

博客地址:https://www.recursive.com/articles/first-steps-toward-automated-ai-research

如果用一句话概括,这项工作的核心是:构建了一套能自主推进AI研究循环的系统,并在三个基准测试上刷新了最好成绩。

二、核心变化

1、政策信号

传统的AI研究流程是一个高度依赖人的「提想法—写代码—跑实验—分析结果—再提想法」的闭环。

它的效率瓶颈不在算力,而在人。全世界能设计前沿训练流程的研究员屈指可数,而每一轮实验迭代都需要他们高度介入。

它的工作方式是:针对一个明确的优化目标,系统自动提出实验想法、实现代码、运行验证、从中学习,然后决定下一步怎么。

多条研究线路可以并行推进,有效的发现可以被跨任务复用,奖励作弊(reward hacking)的检测机制也被内嵌进整个循环,防止系统「走捷径」把测评指标刷上去却没有真正改进任何东西。

这并非一个针对单一问题微调的专用工具,乃是一套跨领域的通用研究自动化框架。Recursive用三个差异显著的测试场景来证明这一点。

场景一:固定计算预算下的小模型训练(NanoChat Autoresearch)

这项基准测试的规则来自Andrej Karpathy(GPT-2作者、前OpenAI联创)发起的autoresearch项目:在一块GPU上,给定五分钟的固定训练预算,尽可能把一个小型语言模型训到最低的验证损失(以BPB衡量,越低越好)。

这个场景天然适合自动化研究:实验周期短、指标方差低、作弊行为相对容易检测。

2、变化方向

正因如此,一个名为「autoresearch@home」的社区项目已经在这个基准上运行了很长时间——数十名人类研究员加上数百个AI智能体协作,持续把指标往下压。

Recursive的系统以相同的初始代码出发,最终把验证BPB从社区最佳的0.9372推进到了0.9109,改善了0.0263个BPB。

换算成另一种说法:同样的训练质量,Recursive的方案只需要对手1.3倍少的训练时间就能达到。

系统发现的改进并非一招制胜。

它组合了架构调整、辅助损失、注意力机制改动、优化器行为、权重衰减调度、编译器设置等多处变化。

其中最关键的一个发现,是一种更丰富的短上下文记忆机制:在注意力的value路径中,通过哈希表同时嵌入bigram(相邻词对)和trigram(三元组)信息,并用可学习的门控加权混合。

不同的Transformer层使用不同的哈希函数,从而降低跨层重复碰撞的概率。

这个技巧在概念上与DeepSeek Engram等工作有所关联,但系统将其以一种尚未见于公开文献的特定变体形式部署到了固定预算场景中。

三、后续判断

1、政策信号

如果说前一个场景是在一个活跃社区的成果上「再进一步」,这个场景则难得多。

NanoGPT Speedrun是另一个由Karpathy发起、社区持续优化两年以上的基准:在8块H100 GPU上,把一个GPT模型训练到验证损失3.28所需的最短时间。

自2024年中以来,社区已通过83次有记录的贡献把时间从约45分钟压缩到了79.7秒。

每一个新方案都需要在极度优化的代码基础上再挤出时间,难度可想而知。

Recursive的系统从现有最优解出发,再次把训练时间压缩到了77.5秒,节省了2.2秒。这与近期人类贡献者能做到的改进幅度相当甚至更好。

FP8精度的注意力计算。

社区方案只在模型的最后一层(语言模型头)使用FP8(8位浮点)计算,而系统将FP8延伸进了注意力层的矩阵运算,前向传播用FP8以获得两倍的Tensor Core吞吐量,反向传播保留BF16以维持稳定性。

优化器中的退火探索噪声。

2、变化方向

系统在NorMuon优化器的更新步骤中注入了零均值高斯噪声,噪声幅度随训练进度线性退火至零。

这有点像给优化器一个「先大胆探索、再稳健收敛」的行为模式,帮助最终解落在一个更平坦的损失盆地中。

更精简的融合MLP内核。

系统重写了一个Triton GPU内核,让前向传播只存储ReLU平方后的激活值,反向传播时在内核内部重算未平方的中间结果,省去了一次完整的激活张量在高带宽显存中的读写往返——这是硬件层面的直接提速。

三个改进,分属精度策略、优化器设计、GPU内核编程三个不同的专业领域。系统在两年社区优化的结果上又找到了空间,本身就说明了问题。

前两个场景都在模型训练层面上工作,第三个场景则深入到更底层:GPU计算内核的优化。

SOL-ExecBench是英伟达推出的基准测试,包含235个内核编写任务,覆盖矩阵乘法、归约、归一化层、注意力组件、量化例程、融合块等多类真实工作负载。

评分标准是SOL分数:0.5对应基准PyTorch实现,1.0对应硬件理论极限。此前的最佳公开成绩是0.699。

四、后续关注

1、政策信号

Recursive的系统在235个内核上整体运行,允许跨任务复用发现的优化模式(例如内存搬运策略、分块方式、规约技巧),最终得分提升到了0.754,将距离硬件极限的差距缩小了18%。

这个场景意义特殊,因为内核工程是极高度专业化的领域——能写出高效Triton/CUDA内核的工程师在全球也是凤毛麟角。

而Recursive团队在博客中坦承,他们自己也不是内核领域的专家,「这些想法来自系统本身,而不是来自我们的专业背景。

发布这项成果的公司Recursive Superintelligence成立于2025年底至2026年初,上个月刚刚结束隐身状态,创始成员除了前Meta FAIR研究科学家总监田渊栋之外,还包括:

Richard Socher,Recursive CEO,前Salesforce首席科学家

Alexey Dosovitskiy,前Google DeepMind研究科学家和Vision Transformer第一作者,谷歌学术引用量超过16万

Tim Rocktäschel,前DeepMind Principal科学家和UCL人工智能教授

2、关键变化

Peter Norvig,谷歌前研究总监,与Stuart Russell合著了AI领域著名教科书《人工智能:一种现代方法》

Caiming Xiong,前Salesforce AI副总裁

Tim Shi,前OpenAI研究员,企业AI公司Cresta联合创始人兼CTO

Josh Tobin,Recursive CTO,前OpenAI与Uber ATG研究负责人

Jeff Clune,前Google DeepMind研究副总裁,加拿大不列颠哥伦比亚大学计算机科学教授

并且该创业公司一亮相,甚至还没有一个公开产品,就已手握6.5亿美元融资,估值高达46.5亿美元,由GV(谷歌风投)和Greycroft领投,英伟达和AMD Ventures跟投。

公司的核心主张与名字直接对应:构建能够递归地提升自身研究能力的AI系统,让AI参与并加速AI本身的研发过程,最终形成持续自我增强的闭环。

更多详情,参阅报道《离开Meta后,田渊栋刚刚官宣创业了》。

来源: 创业邦-投资频道
产业标签 AI中国
赞(2) 支持本站
分享到

支持本站持续更新

如果这篇内容对你有帮助,欢迎扫码支持。

支付宝扫一扫

微信扫一扫

登录

找回密码

注册