OpenAI公开大规模稳定训练的秘密，英伟达AMD英特尔都受益-远见网

OpenAI，这次又真·Open了一下。刚刚，OpenAI通过OCP开放了超大规模AI训练时使用的网络协议——MRC。这次开放的MRC，是实现微秒级故障恢复、能支持10万块以上GPU高效协作的底层通信协议。核心奥义就是，在大规模的训练环境下，确保网络通信的稳定性。而且这一波是和硬件厂商合作，在OpenAI的组织下，英伟达、AMD和英特尔都参与了这个项目。有网友表示，把这些厂商聚在一起合作制定标准，简直比实现AGI还难以协调。大规模集群，也要通讯稳定这套MRC（Multipath Reliable Connection）协议，是OpenAI联合英伟达、AMD、英特尔、微软和博通，花了两年时间做出来的，上周通过Open Compute Project向全行业开放。它现在跑在OpenAI所有最大规模的NVIDIA GB200超算上，包括OCI在德克萨斯Abilene建的星际之门和微软的Fairwater超算。这件事的背景是，同步预训练（synchronous pretraining）的通信模式对网络极度敏感。十几万块GPU在每个训练step里以all-reduce为主要通

查看原文 →

（来源：36氪-资讯，2026-05-07）

OpenAI公开大规模稳定训练的秘密，英伟达AMD英特尔都受益

相关推荐

评论抢沙发

远见网

全新产业投资平台

切换注册登录

切换登录注册

觉得文章有用就打赏一下文章作者

非常感谢你的打赏，我们将继续提供更多优质内容，让我们一起创建更加美好的网络世界！

支付宝扫一扫

微信扫一扫