網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

NVIDIA Spectrum-X 全面支持 MRC，為超大規(guī)模 AI 設(shè)定新標(biāo)準(zhǔn)

2026-05-08 18:14:03　來(lái)源: NVIDIA英偉達(dá)中國(guó)

北京舉報(bào)

分享至

MRC (多路徑可靠連接) 是一種新的傳輸協(xié)議，率先在 NVIDIA Spectrum-X 以太網(wǎng)硬件上完成驗(yàn)證和優(yōu)化，現(xiàn)已向業(yè)界開(kāi)放。

在構(gòu)建全球最強(qiáng)大的 AI 工廠的競(jìng)爭(zhēng)中，網(wǎng)絡(luò)必須與 AI 本身的發(fā)展宏圖相匹配。

NVIDIA Spectrum-X 以太網(wǎng)橫向擴(kuò)展基礎(chǔ)設(shè)施，作為當(dāng)今頂尖的 AI 網(wǎng)絡(luò)技術(shù)，穩(wěn)居這場(chǎng)競(jìng)爭(zhēng)的最前沿，眾多行業(yè)領(lǐng)軍企業(yè)已采用該方案部署，在性能、可靠性和擴(kuò)展性方面均不甘妥協(xié)。

其中包括 OpenAI、Microsoft 和 Oracle。

NVIDIA、微軟以及 OpenAI 等企業(yè)共同打造 MRC (多路徑可靠連接) 協(xié)議，一種新的 RDMA 傳輸協(xié)議，進(jìn)一步夯實(shí)行業(yè)中的領(lǐng)先地位。MRC 支持單個(gè) RDMA 連接在多個(gè)網(wǎng)絡(luò)路徑上分發(fā)流量，從而提高吞吐量、負(fù)載平衡和可用性，以滿足大規(guī)模 AI 訓(xùn)練網(wǎng)絡(luò)的需求。

可以將其理解為用巧妙布局的街道網(wǎng)格系統(tǒng)，取代貫穿城鎮(zhèn)的單車道公路，并與實(shí)時(shí)路況應(yīng)用相配合，使駕駛員能夠自動(dòng)繞過(guò)擁堵路段和封閉道路。

OpenAI 工業(yè)計(jì)算負(fù)責(zé)人 Sachin Katti 表示：“在 Blackwell 架構(gòu)中部署 MRC 非常成功，這得益于與 NVIDIA 的強(qiáng)強(qiáng)合作。MRC 采用端到端方案，幫助我們避免許多典型的網(wǎng)絡(luò)相關(guān)減速和中斷，并保持大規(guī)模前沿訓(xùn)練運(yùn)行的效率。”

此外，微軟和 NVIDIA 保持長(zhǎng)期深度合作，致力于推進(jìn)下一代 AI 所需的基礎(chǔ)設(shè)施。微軟的 Fairwater 以及 Oracle Cloud Infrastructure (OCI) Abilene 數(shù)據(jù)中心是兩個(gè)專為訓(xùn)練和部署前沿大語(yǔ)言模型 (LLM) 而打造的超大規(guī)模 AI 工廠，它們依托 MRC 滿足性能、規(guī)模和效率的要求。NVIDIA Spectrum-X 以太網(wǎng)完美契合此類場(chǎng)景，為大規(guī)模 AI 模型和應(yīng)用，提供所需的穩(wěn)定可靠的網(wǎng)絡(luò)基礎(chǔ)。

率先在生產(chǎn)環(huán)境中經(jīng)過(guò)驗(yàn)證，性能在 NVIDIA Spectrum-X 以太網(wǎng)硬件上得到優(yōu)化，現(xiàn)已通過(guò) Open Compute Project 發(fā)布為開(kāi)放規(guī)范，MRC 展示了 Spectrum-X 以太網(wǎng)平臺(tái)的強(qiáng)大能力：專門優(yōu)化的硬件、深度遙測(cè)和智能網(wǎng)絡(luò)控制協(xié)同工作，將新協(xié)議 (一套控制數(shù)據(jù)如何在網(wǎng)絡(luò)中兩個(gè)系統(tǒng)之間移動(dòng)的規(guī)則) 從概念轉(zhuǎn)化為超大規(guī)模 AI 生產(chǎn)。

MRC 通過(guò)在所有可用路徑上實(shí)現(xiàn)流量負(fù)載均衡，大幅提升 GPU 利用率，使每個(gè) GPU 在整個(gè)訓(xùn)練過(guò)程中獲得充足的帶寬。即使在擁塞情況下，它也能通過(guò)實(shí)時(shí)動(dòng)態(tài)規(guī)避超載路徑來(lái)維持高帶寬傳輸。

當(dāng)發(fā)生數(shù)據(jù)丟失時(shí)，智能重傳技術(shù)可實(shí)現(xiàn)快速精確的恢復(fù)，最大限度地降低對(duì)長(zhǎng)期運(yùn)行作業(yè)的短暫中斷的影響，從而降低 GPU 空閑時(shí)間。

管理員還可以對(duì)流量路徑進(jìn)行精細(xì)的可視性和控制，從而簡(jiǎn)化運(yùn)維并加速大規(guī)模系統(tǒng)上的故障排除。

在 Spectrum-X 以太網(wǎng)上部署的 MRC，經(jīng)過(guò)優(yōu)化和設(shè)計(jì)，助力大規(guī)模系統(tǒng)的可靠性。其故障旁路技術(shù)可以在幾微秒內(nèi)檢測(cè)到網(wǎng)絡(luò)路徑故障，并自動(dòng)通過(guò)硬件方式重新路由流量。

這項(xiàng)故障旁路技術(shù)對(duì)于 AI 訓(xùn)練集群至關(guān)重要，因?yàn)樵谶@些集群中，數(shù)千個(gè) GPU 必須保持同步，即使是短暫的網(wǎng)絡(luò)中斷也會(huì)減慢或中斷整個(gè)訓(xùn)練作業(yè)。Spectrum-X 以太網(wǎng)通過(guò)硬件級(jí)響應(yīng)速度來(lái)防止這種情況，使流量沿著精確的路徑在超大規(guī)模 AI 網(wǎng)絡(luò)中流動(dòng)。

實(shí)現(xiàn)十億瓦級(jí) AI 工廠的另一項(xiàng)關(guān)鍵創(chuàng)新是多平面網(wǎng)絡(luò)設(shè)計(jì)，OpenAI 部署 Spectrum-X 以太網(wǎng)并應(yīng)用 MRC 技術(shù)來(lái)實(shí)現(xiàn)該設(shè)計(jì)。多平面網(wǎng)絡(luò)由多個(gè)獨(dú)立的網(wǎng)絡(luò)或平面組成，每個(gè)平面都提供 GPU 之間的獨(dú)立通信路徑且互為備用。

NVIDIA Spectrum-X 多平面功能通過(guò)支持跨平面的硬件加速負(fù)載均衡來(lái)增強(qiáng)這種網(wǎng)絡(luò)架構(gòu)，在不犧牲性能的情況下提高了可靠性和可擴(kuò)展性。這種設(shè)計(jì)繼續(xù)保持可預(yù)測(cè)的低延遲，同時(shí)擴(kuò)展到數(shù)十萬(wàn)個(gè) GPU。

借助 Spectrum-X 以太網(wǎng)，客戶可以自由選擇多樣的 RDMA 傳輸模型。Spectrum-X 以太網(wǎng)自適應(yīng) RDMA 和 MRC 傳輸協(xié)議以及其他自定義協(xié)議，均可原生運(yùn)行在 NVIDIA ConnectX SuperNIC 以及 Spectrum-X 以太網(wǎng)交換機(jī)組成的網(wǎng)絡(luò)中，并支持多平面網(wǎng)絡(luò)設(shè)計(jì)以實(shí)現(xiàn)超大規(guī)模擴(kuò)展。

因此，為當(dāng)今大型 AI 集群提供支持的 Spectrum-X 以太網(wǎng)硬件和軟件基礎(chǔ)設(shè)施為客戶提供了充分的靈活性，使他們能夠?yàn)樽约旱墓ぷ髫?fù)載選擇合適的傳輸方式。

MRC 傳輸協(xié)議是一個(gè)新的行業(yè)典型示例，使用 Spectrum-X 以太網(wǎng)作為靈活可組合的平臺(tái)，與現(xiàn)代 AI 基礎(chǔ)設(shè)施的整個(gè)領(lǐng)域進(jìn)行深度集成。

隨著 AI 工廠規(guī)模的不斷擴(kuò)大，網(wǎng)絡(luò)需要做的不僅僅是快速傳輸數(shù)據(jù)，還需具備智能化、高可靠性且基于開(kāi)放標(biāo)準(zhǔn)。NVIDIA Spectrum-X 以太網(wǎng)在三方面均表現(xiàn)出色，通過(guò) MRC，持續(xù)將先進(jìn)的 AI 網(wǎng)絡(luò)推向新高度。

MRC 由 NVIDIA 與 AMD、博通、英特爾、微軟和 OpenAI 合作開(kāi)發(fā)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.