最近,又一個長期被國外壟斷的技術高地被攻克。中科曙光正式發布首款全棧自研400G無損高速網絡——scaleFabric。它是國內首款國產類InfiniBand(簡稱IB)原生無損RDMA超高速網絡產品,曙光全棧自研,專為大規模萬卡集群打造,適配大模型訓練等高端計算場景,是實現國產算力網絡自主可控的核心產品。
曙光歷時三年研發,實現scaleFabric從底層芯片到上層軟件的100%全棧自研。目前,曙光推出了scaleFabric 400單口標準網卡、scaleFabric 400 1U 80口液冷交換機、scaleFabric 400 2U 80口風冷交換機三款產品,核心技術是兩顆自研芯片:一是網卡芯片,400G高帶寬,自研RDMA引擎;二是交換芯片,64T雙向交換容量,轉發延時低至260納秒,采用112G高速Serdes。
這項突破究竟有多重要?業內普遍認為,計算、網絡、存儲是支撐大規模計算系統的三大核心支柱,算力決定系統性能的上限,但一旦網絡拉垮,可能將整體性能下限歸零。尤其在大規模集群場景下,網絡的重要性更為突出。
當前,從GPT?3到GPT?5,智算集群已正式邁入萬卡時代。隨著大模型即將進入萬億參數時代,計算卡規模持續擴張,網絡已成為制約智算性能的核心瓶頸。而scaleFabric的出現,正是補齊了我國高端智算領域的最后一塊關鍵拼圖,讓上萬張GPU卡實現高效協同、緊密互聯。
scaleFabric的優勢所在
當前國內廠商以RoCE路線為主,而曙光堅持采用IB原生RDMA路線,這是為什么?
RoCE網絡基于以太網嫁接RDMA技術,本質是“在以太網之上跑IB協議”,用UDP報文封裝IB協議,屬于嫁接式技術,可以兼容IP生態,不過帶寬低、時延高、運維復雜、大規模組網能力弱等技術短板。如果只是中小規模系統,RoCE會是不錯的選擇,但對大規模系統可能就不夠了。
IB是面向高端計算的原生RDMA專用高速網絡,協議棧專為高速通信設計、包頭信息短、有效載荷高,但成本昂貴且長期被國際廠商壟斷。以英偉達為例,其在2019年收購Mellanox補齊高速網絡板塊,足以見得其對IB這項技術的重視程度。
隨著以scaleFabric為代表的國產自主RDMA高速網絡應運而生,徹底打破了IB設備受限的現狀。它兼容IB生態,擴展協議可支撐10萬卡規模集群,搭配400G網卡芯片,性能已達業界一流水平。
從核心指標方面看,時延方面,IB交換機采用VCT交換機制,支持邊收邊轉,交換時延小于 300ns,而RoCE采用存儲 - 轉發模式,需要完整接收數據包后才能轉發,時延普遍在500ns以上,達到IB的兩倍以上,且動態時延容易受網絡擁堵影響而大幅波動;帶寬方面,主流IB網卡400G,主流RoCE網卡200G,而sacleFabric單端口帶寬達到了800G;無損網絡實現上,IB采用基于信用的精細化流控,發送前確認接收端資源,從根源避免丟包,無需額外擁塞控制;RoCE采用PFC暫停機制,粗粒度流控,易出現丟包、PFC風暴/死鎖,必須依賴擁塞控制且需人工調優水線。
![]()
在并行效率方面,scaleFabric達到了85%,遠超RoCE的65%,核心算力利用率大幅提升。相比傳統RoCE方案,采用國產scaleFabric網絡后,整體應用性能提升幅度超過30%。
![]()
從參數來看,scaleFabric全面對標英偉達NDR系列,甚至部分規格更優:端口密度上,交換機達80口400G,比NDR的64口提升25%,大幅降低組網成本;最大QP數上,支持256K,是NDR的2倍,更好支撐大規模并行計算;實測性能上,RDMA延時0.93微秒,轉發延時260納秒,達到國內領先水平。
![]()
![]()
![]()
目前,scaleFabric已落地國家超算互聯網核心節點的3萬卡商用集群,實現3套scaleX萬卡集群同步上線,為國產最大規模真實負載驗證。
專家實測使用效果顯著
如果在國內要找一家與英偉達基因最像的企業,我們認為是曙光。英偉達的GPGPU起源于科學計算,最早在中國高校和科研院所推廣生態;而曙光同樣發軔于科學計算領域,在產品層面已形成全線對標英偉達的布局。
紙上談兵易,實戰驗證難。那么,站在一線工程師和從業者角度來看,曙光的scaleFabric使用體驗究竟如何?
中國科學院計算技術研究所研究員王展的團隊聚焦分子動力學模擬這一典型科學智能場景,其核心挑戰在于高精度長時間模擬。他表示,團隊曾在日本富岳超算上的優化經驗表明,通信是最大瓶頸。在拿到scaleFabric后,他們第一時間部署測試,在單卡性能方面,單QP通信性能優于NVIDIA ConnectX-7(CX7),多QP通信Write/Send性能領先,RDMA Write延遲1.14μs、Send延遲 1.47μs,表現優異;交換機轉發延遲實測255ns,與英偉達IB持平,優于主流300ns方案;在大規模集群測試中,124 GPU規模下帶寬突破 120GB/s,4096 GPU至萬卡級規模帶寬基本穩定。
王展特別提到,scaleFabric具備極強的科研友好性,開箱即用、OpenSM服務完善,HPL、LAMMPS 等應用無需額外配置即可運行,監控與管理工具便捷易用。
北京科技大學計算機與通信工程學院儲根深表示,重大工程依賴數智模擬來降低成本、縮短周期,要實現“算得準、算得好”,必須做到高保真數值模擬,而這會帶來計算量激增,如何充分發揮算力成為核心挑戰,尤其在超智一體架構下,如何利用scaleFabric優化通信,是提升性能的關鍵。
儲根深的團隊基于scaleFabric硬件,從硬件層、系統庫層、算法層三層架構展開優化。在國家超算互聯網核心節點的實測中,輻照材料分子動力學軟件從千卡擴展至萬卡,并行效率實現了86%,通信開銷從50%降至10%;堆芯流體力學CFD軟件 phi-flow萬卡并行效率57%,通信時間下降10%;三維快堆堆芯中子物理輸運軟件 ANT MOC2.0在萬卡規模下并行效率42%,特征線數量近2000億,計算精度提升7 倍。
![]()
![]()
![]()
“實際測試中,scaleFabric表現出優異的穩定性,兩周連續測試無網絡抖動或故障,生態兼容性對標英偉達。”儲根深感嘆道,scaleFabric為工程計算軟件的萬卡擴展提供了堅實硬件支撐,未來期待在生態層面持續優化,進一步釋放國產算力潛能。
科大訊飛AI工程院智算基礎設施架構師鮑中帥表示,自2019年起,科大訊飛堅定走國產化路線,并與曙光展開深度合作。在國家超算互聯網核心節點的3萬卡商用集群中,科大訊飛也落地了多項應用優化成果:落地了DeepEP,重點解決高吞吐場景的性能瓶頸;通過Ripiple策略重計算技術解除了重計算與反向計算的綁定關系,實現更細粒度的流水線并行;dualpipev+cudagraph技術實現EP域通信計算overlap,有效降低流水空泡。
鮑中帥強調,曙光不僅在IB領域能力突出,同時保持開放生態,科大訊飛與曙光合作歷史久遠、深入且全面。此外,雙方的合作也不止于IB。
中國自主進入新階段
實現突破,曙光來時的路并不輕松。事實上,IB真正的難點在底層,物理層與工藝強相關,想把網絡做得比IB更好極其困難。研發初期,曙光并無十足把握能達到其水平,過程中經歷了諸多艱辛。
最終能取得成功,得益于兩點:一是站在巨人的肩膀上,長期使用IB產品讓曙光對其有深刻理解;二是基于這些經驗,得以在自研過程中改進其原有設計的不足,規避某些痛點。正因如此,曙光在部分性能上反而實現了超越。
而在整個大算力領域,曙光的布局不止是IB,主要集中在三個層面:一是核心計算芯片的研發;二是硬件層面的高效實現,隨著芯片功率密度、熱密度和IO密度的急劇攀升,在供電和冷卻等支撐技術上已進入“深水區”,面臨著極具挑戰性的工程難題,必須在此領域實現技術突破;三是系統級的協同與生態合作,曙光強調算、存、傳的協同,以及與IB等設備的深度融合。
通過在不同層級進行布局,并與國內產業鏈上下游伙伴保持緊密合作,曙光正在構建一個自主可控的算力生態。
從全球看,IB市場由少數全棧能力廠商主導,英偉達收購Mellanox后,軟硬件深度結合,構建了高性能集群。國內IB發展正迎頭趕上,從協議標準確立到速率快速升級,目前已步入融合與自研階段。由于IB設備一體機難以獲取,國產自主衍生的RDMA高速網絡便應運而生,如曙光scaleFabric。在此之后,真正的難點在上層生態建設。光合組織等平臺的協同正在加速這一進程。
請將我們設為“星標”,這樣就會第一時間收到推送消息。
歡迎關注EEWorld旗下訂閱號:“機器人開發圈”
掃碼添加小助手回復“機器人”
進群和電子工程師們面對面交流經驗
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.