![]()
GPU巨頭轉向光互聯擴容,已是必然選擇。
如果你覺得英偉達GB200機架系統已經足夠龐大,那CEO黃仁勛的布局才剛剛開始。在上個月的GTC大會上,這家全球市值最高的芯片企業公布了一項重磅計劃:到2028年,將利用光子互聯技術,把超過1000顆GPU集成到一套超大規模系統中。
英偉達也沒有坐等供應鏈成熟。過去一個月里,這家GPU巨頭已向Marvell、Coherent、Lumentum等專注于光通信與互聯技術的企業投入數十億美元,為這類系統的大規模部署做好準備。
“對于我們生態中的所有伙伴來說,我們需要更多的算力容量,”黃仁勛在GTC主題演講中表示,“我們需要更多銅互聯容量,需要更多光互聯容量,需要更多共封裝光學(CPO)容量。這也是我們與各方合作,為這一量級的增長打下基礎的原因。”
然而,英偉達走到這一步的歷程,其實早在更早之前就已開啟。事實上,當OpenAI在2022年底向世界推出ChatGPT時,英偉達就已經意識到自己面臨一個難題。
當時,英偉達性能最強的系統僅支持8顆GPU,而推動AI爆發的大模型,卻需要數千顆GPU才能完成訓練。英偉達需要更大的系統,或者至少是更快的網絡,能夠高效地將任務分發到數十顆芯片上。
我們最早在2023年英偉達的Grace Hopper超級芯片上看到了這一方向的嘗試,但直到2024年初,完整的布局才浮出水面。同年GTC上發布的Grace Blackwell NVL72是一臺功耗高達120千瓦的巨型機器,它通過搭載長達數米線纜的銅質背板,讓36個節點、72顆GPU協同工作,如同一臺巨型AI加速器。
英偉達網絡高級副總裁吉拉德·謝納表示,銅材是當時最順理成章的選擇。
“如果能用,銅就是最好的連接方式,”他說,“成本極低、幾乎不耗電、可靠性極高,也沒有有源器件。”
但銅互聯并非完美。在1.8TB/s的速率下,線纜只能延伸數英尺,信號就會因GPU之間的通信而衰減。如果你曾好奇NVL72的NVSwitch為何都放在機架中央,原因就是線纜長度限制極短。銅材有限的傳輸距離,也迫使英偉達必須在單個機架內塞進盡可能多的GPU。
兩年后的今天,英偉達正快速逼近銅互聯的物理極限。如果想要搭建規模更大的GPU系統,就必須轉向光互聯。
可插拔光模塊的難題
當黃仁勛首次展示代號Oberon的NVL72機架時,業界唯一商用可行的GPU光互聯方案,只有可插拔光模塊。
這類模塊大小接近一包口香糖,集成了激光器、重定時器、數字信號處理單元,負責將電信號轉為光信號,再轉回電信號。
可插拔模塊在數據中心網絡中早已普及,但將其用于NVLink這類大規模計算架構,卻存在一系列問題。
要達到1.8TB/s帶寬,每顆Blackwell GPU需要18個800Gbps可插拔模塊:加速器端9個,交換機端9個。單個模塊功耗僅10–15瓦,但72顆GPU規模下,總功耗會迅速飆升。
正如黃仁勛在2024年GTC主題演講中指出,光互聯方案會額外增加約2萬瓦功耗。
但自Oberon機架發布以來,行業發生了巨大變化。共封裝光學(CPO) 技術取得突破,它將光引擎直接與交換ASIC集成,顯著降低了功耗。
2025年,英偉達成為首批擁抱CPO的AI基礎設施廠商之一,將其直接整合進Spectrum以太網與Quantum InfiniBand交換機(基于博通方案的Micas Networks也采取了類似路線)。
這大幅減少了搭建AI訓練集群所需的可插拔模塊數量。不過,直到近期,英偉達才開始公開討論在NVSwitch架構中使用光互聯與CPO。
NVLink走向光互聯
兩年前還認為光互聯功耗過高的黃仁勛,在今年春季GTC上重新提及這一話題,并發布了Vera Rubin NVL576與Rosa Feynman NVL1152兩款多機架系統,它們將通過光子技術,將計算域規模擴大8倍。
NVL576這個名字聽起來并不陌生。事實上,在初代NVL72機架發布時,英偉達就曾預告過這一GPU數量的配置,只是據我們所知,該系統從未實際部署。英偉達也曾短暫以NVL576命名Vera Rubin Ultra Kyber機架,后來才決定不再將每一顆獨立GPU裸片算作單獨加速器。
除非英偉達的市場策略或路線圖再次調整,真正的Vera Rubin NVL576將采用銅互聯+光互聯混合方案。“外界一直在討論‘英偉達會走銅互聯擴容還是光互聯擴容?’——我們兩者都會做。”黃仁勛在本屆GTC上表示。
據英偉達超算與高性能計算副總裁伊恩·巴克介紹,網絡第一層將在機架內使用銅互聯,GPU無需改動;第二層骨干網絡則采用可插拔模塊。
目前尚不清楚英偉達具體采用何種拓撲結構,但兩層胖樹架構非常契合,且僅需一個機架的交換機(共72顆ASIC)作為骨干層。在光模塊方案上,可插拔模塊是最簡單的選擇,但英偉達也可能采用近封裝光學(NPO),就像Lightmatter上月展示的技術。
對于Vera Rubin,英偉達僅明確在Oberon NVL72機架上支持光擴容,而非NVL144 Kyber系統。
我們尚無法確定英偉達做出這一選擇的具體原因,但值得注意的是:一旦支持光擴容,就不必把所有硬件塞進單一機架。從散熱與功耗角度看,支持8個機架之間的光互聯擴容,顯然更為合理。
Feynman世代全面走向共封裝光學
真正令人期待的是英偉達Feynman世代產品,預計2028年中后期開始出貨。據悉,這些系統將同時支持銅互聯或共封裝光NVLink互聯。
英偉達對具體實現細節仍相對保密,但大致有兩條技術路徑。
最簡單的方案是:將CPO集成到NVLink交換ASIC中,機架內部繼續使用銅互聯。這需要兩層NVSwitch架構,以及兩到三款不同ASIC:半光、全光,以及不含CPO的型號。這種方式可以讓英偉達通過更換NVLink交換機托盤或增加骨干機架,靈活支持多種配置。
更具顛覆性的可能是:將CPO同時集成到交換機與GPU封裝中。這幾乎必然會推出多款Feynman GPU型號(帶光口與不帶光口),但可以將整個架構壓縮為單層。謝納在上月GTC期間接受采訪時,拒絕對具體路線置評,但強調了單層計算架構的優勢。
“如果可以避免,擴容架構最好不要設計多層,因為要盡可能降低計算引擎之間的延遲。”他說。
盡管將CPO集成進GPU在技術上可行,但單層NVL1152系統需要極高端口數的大型交換機。考慮到Feynman要到2028年中后期才會出貨,這一目標并非不可能實現。
鎖定供應鏈產能
無論采用哪種方案,都需要充足的激光模塊供應。雖然CPO將大量光學與信號處理功能集成到封裝中,但激光器通常仍獨立設計,以方便維護。
這也解釋了為何英偉達在上個月向兩家激光巨頭Coherent、Lumentum分別注資20億美元,合計40億美元。如果要大規模落地CPO,供應鏈必須提前做好準備。另一項顯示英偉達正推進加速器端CPO的證據,是本周宣布對Marvell投資20億美元。
根據合作內容,英偉達將與Marvell合作,把高速互聯技術授權版NVLink Fusion集成到定制XPU中,用于英偉達Vera CPU。雙方還將合作開發光I/O技術,具體細節未披露。
這家初創公司的光子互聯技術,可用于搭建跨機架的一致性內存網絡,對英偉達的吸引力,不亞于對Marvell大客戶(包括AWS)的吸引力。眾所周知,AWS是NVLink Fusion的重要客戶,計劃在下一代Trainium4計算集群中采用該技術。
無論如何,英偉達已經看清光互聯擴容的大勢。可以預見,CPO將在其未來系統設計中扮演越來越核心的角色。
*聲明:本文系原作者創作。文章內容系其個人觀點,我方轉載僅為分享與討論,不代表我方贊成或認同,如有異議,請聯系后臺。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.