远见中国
未来经济坐标系

OpenAI公开大规模稳定训练的秘密,英伟达AMD英特尔都受益

OpenAI,这次又真·Open了一下。 刚刚,OpenAI通过OCP开放了超大规模AI训练时使用的网络协议——MRC。 这次开放的MRC,是实现微秒级故障恢复、能支持10万块以上GPU高效协作的底层通信协议。 核心奥义就是,在大规模的训练环境下,确保网络通信的稳定性。 而且这一波是和硬件厂商合作,在OpenAI的组织下,英伟达、AMD和英特尔都参与了这个项目。 有网友表示,把这些厂商聚在一起合作制定标准,简直比实现AGI还难以协调。 大规模集群,也要通讯稳定 这套MRC(Multipath Reliable Connection)协议,是OpenAI联合英伟达、AMD、英特尔、微软和博通,花了两年时间做出来的,上周通过Open Compute Project向全行业开放。 它现在跑在OpenAI所有最大规模的NVIDIA GB200超算上,包括OCI在德克萨斯Abilene建的星际之门和微软的Fairwater超算。 这件事的背景是,同步预训练(synchronous pretraining)的通信模式对网络极度敏感。 十几万块GPU在每个训练step里以all-reduce为主要通

查看原文 →

(来源:36氪-资讯,2026-05-07)

赞(0) 打赏
未经允许不得转载:远见网 » OpenAI公开大规模稳定训练的秘密,英伟达AMD英特尔都受益
分享到
讨论区

评论 抢沙发

围绕文章展开讨论,保持简洁、具体、可引用。

远见网

全新产业投资平台

登录

找回密码

注册

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续提供更多优质内容,让我们一起创建更加美好的网络世界!

支付宝扫一扫

微信扫一扫