快科技5月7日消息,OpenAI今日通過開放計算項目(OCP)正式發布MRC(多路徑可靠連接)協議,解決大規模AI訓練中的GPU網絡通信瓶頸。
該協議由OpenAI與AMD、NVIDIA、Intel、微軟和博通歷時兩年聯合開發,目前已在搭載NVIDIA GB200的超算集群中投入實際使用。
![]()
MRC要解決的核心問題是:在訓練大規模AI模型時,單次數據傳輸延遲就足以導致整個訓練過程中斷,GPU集體空轉等待,而集群規模越大,由網絡擁塞、鏈路和設備故障引發的延遲問題越頻繁。
MRC的方案是將單條800Gb/s網絡接口拆分為多條更小的鏈路,例如將一個接口連接至8臺不同交換機,構建8條獨立的100Gb/s并行網絡,而非依賴單一800Gb/s網絡。
![]()
這一改變對集群拓撲結構的影響極為明顯,一臺支持64個800 Gb/s端口的交換機,在拆分后可連接512個100 Gb/s端口,使得僅用兩層交換機即可實現約13.1萬塊GPU的全互聯網絡。
傳統800 Gb/s方案則需要三到四層交換機才能達到同等規模,層數減少直接意味著延遲降低和故障點減少。
MRC基于現有的RDMA over RoCE(融合以太網)協議擴展,支持GPU和CPU的硬件加速遠程直接內存訪問。
OpenAI已在Oracle Cloud Infrastructure和微軟Fairwater超算上的GB200集群中部署MRC,用于訓練前沿模型。
![]()
該協議也將成為OpenAI正在建設的Stargate超算的基礎網絡架構,該超算目標在2029年部署10GW AI算力,過去三個月已部署超過3GW。
MRC協議還向整個AI行業開放,OpenAI表示希望借此推動跨行業協作,共同解決AI基礎設施中最棘手的網絡難題。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.