OpenAI,这次又真·Open了一下。 刚刚,OpenAI通过OCP开放了超大规模AI训练时使用的网络协议——MRC。 这次开放的MRC,是实现微秒级故障恢复、能支持10万块以上GPU高效协作的底层通信协议。 核心奥义就是,在大规模的训练环境下,确保网络通信的稳定性。 而且这一波是和硬件厂商合作,在OpenAI的组织下,英伟达、AMD和英特尔都参与了这个项目。 有网友表示,把这些厂商聚在一起合作制定标准,简直比实现AGI还难以协调。 大规模集群,也要通讯稳定 这套MRC(Multipath Reliable Connection)协议,是OpenAI联合英伟达、AMD、英特尔、微软和博通,花了两年时间做出来的,上周通过Open Compute Project向全行业开放。 它现在跑在OpenAI所有最大规模的NVIDIA GB200超算上,包括OCI在德克萨斯Abilene建的星际之门和微软的Fairwater超算。 这件事的背景是,同步预训练(synchronous pretraining)的通信模式对网络极度敏感。 十几万块GPU在每个训练step里以all-reduce为主要通
(来源:36氪-资讯,2026-05-07)

评论 抢沙发
围绕文章展开讨论,保持简洁、具体、可引用。