![]()
![]()
2025年,國(guó)產(chǎn)AI算力快速增長(zhǎng)的新聞不絕于耳。在上周,國(guó)內(nèi)召開了兩場(chǎng)備受矚目的有關(guān)AI算力的大會(huì),并且這兩場(chǎng)大會(huì)彼此緊密相關(guān),頗有年度收官的意義。
12月20日上午,在首屆MUSA開發(fā)者大會(huì)上,中國(guó)科學(xué)院院士、清華大學(xué)計(jì)算機(jī)系教授鄭緯民,在展望中國(guó)AI算力增長(zhǎng)的廣闊前景之后,指出了一個(gè)冰冷的事實(shí):
“當(dāng)前中國(guó)芯片行業(yè)面臨著內(nèi)卷與碎片化問題——不同的廠家提供不同的接口,要做不同的適配,這使得開發(fā)者的工作量陡增。”
而就在12月18日,光合組織2025人工智能創(chuàng)新技術(shù)大會(huì)(以下簡(jiǎn)稱HAIC 2025)會(huì)期間,海光信息副總裁吳宗友的行業(yè)判斷,與鄭緯民院士不謀而合:
“我們國(guó)家過去幾年搞信創(chuàng)國(guó)產(chǎn)化,芯片行業(yè)發(fā)展比較快,但是這個(gè)快的過程中也給用戶造成了很多困擾,用戶最大的困擾就是說有這么多的芯片,都需要去適配和優(yōu)化,對(duì)用戶來說投入的成本是非常多的。”
![]()
鄭緯民院士與吳宗友對(duì)國(guó)內(nèi)AI產(chǎn)業(yè)的判斷,用一句話來總結(jié)就是:中國(guó)的AI算力單點(diǎn)突破的成績(jī)可喜,但從芯片層就開始的生態(tài)割裂令人堪憂。
鄭緯民院士提出的解題思路,是不同芯片、不同系統(tǒng)最好是一套東西,產(chǎn)業(yè)聯(lián)盟與軟硬件協(xié)同設(shè)計(jì)非常重要,產(chǎn)業(yè)界要團(tuán)結(jié)起來,應(yīng)用界也要團(tuán)結(jié)起來。
其實(shí),主題為"智算無界,光合共生"的HAIC 2025,正是為“協(xié)同”和“團(tuán)結(jié)”而召開。
![]()
在這次大會(huì)上,中科曙光發(fā)布了曙光scaleX萬卡超集群系統(tǒng),這是國(guó)產(chǎn)萬卡級(jí)算力集群首次以真機(jī)形式公開亮相。
這既標(biāo)志著,由光合組織提出的“AI計(jì)算開放架構(gòu)”已經(jīng)從共識(shí)落地為成果;同時(shí)也標(biāo)志著,在中美AI產(chǎn)業(yè)走向開始分道揚(yáng)鑣之后,中國(guó)的AI產(chǎn)業(yè)實(shí)現(xiàn)算力自主,邁出了關(guān)鍵一步。
![]()
近年來,國(guó)內(nèi)出現(xiàn)了AI算力芯片創(chuàng)業(yè)熱潮,壁仞、燧原等一系列明星創(chuàng)業(yè)公司正在不斷涌現(xiàn)。
看起來,AI算力的單點(diǎn)突破景象喜人。
然而,正如鄭緯民院士與吳宗友所指出的那樣,大模型時(shí)代的AI算力單位是集群總算力,而非單卡算力。而產(chǎn)業(yè)應(yīng)用場(chǎng)景豐富、算力技術(shù)路線多元的中國(guó)AI產(chǎn)業(yè)優(yōu)勢(shì),同時(shí)也意味著生態(tài)割裂的隱患正在與單點(diǎn)突破同步累積。
![]()
換句話說,中美AI產(chǎn)業(yè)分道揚(yáng)鑣的第一個(gè)層面已經(jīng)明顯展現(xiàn),那就是中國(guó)算力集群創(chuàng)新需求更為迫切。
基于“AI計(jì)算開放架構(gòu)”的曙光scaleX萬卡超集群系統(tǒng)因此而誕生,其意義不亞于誕生于1980年的TCP/IP協(xié)議,后者讓所有AI產(chǎn)業(yè)鏈上企業(yè)都能參與AI集群設(shè)施創(chuàng)新。
而基于“AI計(jì)算開放架構(gòu)”理念,所研發(fā)的曙光scaleX萬卡超集群系統(tǒng),可兼容多品牌AI加速卡以及主流計(jì)算生態(tài)讓國(guó)產(chǎn)AI產(chǎn)業(yè)從“單點(diǎn)突破”走向產(chǎn)業(yè)“生態(tài)共進(jìn)”,提供一個(gè)可靠算力底座。
但要實(shí)現(xiàn)萬卡集群的創(chuàng)新,談何容易。
要知道,美國(guó)大廠的萬卡以上級(jí)別計(jì)算集群,幾乎清一色采用了英偉達(dá)的GPU。
英偉達(dá)能成為AI行業(yè)的“水電煤”,同樣依賴的不是單卡而是集群,準(zhǔn)確地說,其強(qiáng)大的GPU算力是由“三駕馬車”構(gòu)成——GPU提供澎湃的浮點(diǎn)算力,NVLink負(fù)責(zé)計(jì)算節(jié)點(diǎn)內(nèi)的高速互聯(lián),InfiniBand網(wǎng)絡(luò)將計(jì)算節(jié)點(diǎn)鏈接為計(jì)算集群。
AI計(jì)算需要的網(wǎng)絡(luò)與傳統(tǒng)的以太網(wǎng)不一樣,它對(duì)信號(hào)的質(zhì)量要求非常高,要求做到無損,如此才可以做到硬件上極低的延遲。所以,NVLink與InfiniBand,其技術(shù)門檻絲毫不亞于GPU設(shè)計(jì)。
![]()
scaleX萬卡超集群由16個(gè)曙光scaleX640超節(jié)點(diǎn)通過scaleFabric高速網(wǎng)絡(luò)互連而成,可實(shí)現(xiàn)10240塊AI加速卡部署,總算力規(guī)模超5EFlops。作為世界首個(gè)單機(jī)柜級(jí)640卡超節(jié)點(diǎn),scaleX640采用超高密度刀片、浸沒相變液冷等技術(shù),將單機(jī)柜算力密度提升20倍,PUE值低至1.04。
![]()
特別值得關(guān)注的是曙光scaleFabric網(wǎng)絡(luò),其是基于國(guó)內(nèi)首款400G 類InfiniBand的原生RDMA網(wǎng)卡與交換芯片,可實(shí)現(xiàn)400Gb/s超高帶寬、低于1微秒端側(cè)通信延遲,超節(jié)點(diǎn)間的通信性能達(dá)到業(yè)內(nèi)領(lǐng)先水平,充分釋放萬卡超集群算力,并可將超集群規(guī)模輕松擴(kuò)展至10 萬卡以上,相比傳統(tǒng)IB網(wǎng)絡(luò)提升2.33倍,同時(shí)網(wǎng)絡(luò)總體成本降低 30%。
曙光scaleFabric網(wǎng)絡(luò)與scaleX萬卡超集群實(shí)現(xiàn)的技術(shù)躍遷程度,用形象描述會(huì)比數(shù)據(jù)描述更容易理解:要是用原本的技術(shù)搭建萬卡集群,HAIC 2025的半個(gè)展館都不夠。而現(xiàn)在卻可以放置在門口,其計(jì)算密度是數(shù)量級(jí)上的差距。
“我們這一代的產(chǎn)品,從目前的規(guī)格指標(biāo)和實(shí)測(cè)的指標(biāo)穩(wěn)定性來說,完全可說實(shí)現(xiàn)全行業(yè)領(lǐng)先。”
中科曙光高級(jí)副總裁李斌介紹,scaleX萬卡超集群的部分技術(shù)與能力,已超越英偉達(dá)研發(fā)路線圖的2027年NVL576里程節(jié)點(diǎn)。
更讓人佩服的是,scaleX萬卡超集群連一些非核心但對(duì)運(yùn)維很重要的技術(shù),比如讓數(shù)據(jù)傳輸更穩(wěn)定的112G SerDes關(guān)鍵部件,還有萬一網(wǎng)絡(luò)出問題也能很快恢復(fù)正常的技術(shù)——通過物理集群數(shù)字孿生,實(shí)現(xiàn)故障定位、修復(fù)等全流程可視化智能管理——都一次性搞定了,補(bǔ)表現(xiàn)出了十分全面的技術(shù)優(yōu)勢(shì)。
![]()
中美AI產(chǎn)業(yè)分道揚(yáng)鑣的第二個(gè)層面,表現(xiàn)的更為明顯,那就是中國(guó)擁有從不同數(shù)量級(jí)參數(shù)的大模型層,到應(yīng)用層的蓬勃生態(tài),背后則是中國(guó)各行各業(yè)產(chǎn)業(yè)升級(jí)的迫切需求。
也就是說,除了AI算力的提升之外,國(guó)內(nèi)產(chǎn)業(yè)還有強(qiáng)烈的生態(tài)融合需求。
令行業(yè)驚喜的是,scaleX萬卡超集群一出場(chǎng)就自帶開放生態(tài)雛形。
在HAIC 2025上,曙光scaleX萬卡超集群系統(tǒng)的發(fā)布環(huán)節(jié),不僅發(fā)布了打破異構(gòu)算力“存算傳”瓶頸的技術(shù)創(chuàng)新,而且直接發(fā)布一個(gè)開放生態(tài)的雛形——兼容市面上所有智算及超算應(yīng)用場(chǎng)景,應(yīng)用可實(shí)現(xiàn)無感遷移。
![]()
作為 “AI計(jì)算開放架構(gòu)”最新重磅成果,scaleX萬卡超集群實(shí)現(xiàn)400+主流大模型、世界模型等適配優(yōu)化。在實(shí)際應(yīng)用中,該超集群可覆蓋大模型訓(xùn)練、金融風(fēng)控、地質(zhì)能源勘探及科學(xué)智能等多元場(chǎng)景。
隨著scaleX萬卡超集群的落地,中國(guó)AI產(chǎn)業(yè)不再局限于追趕硬件性能,而是轉(zhuǎn)向構(gòu)建開放、協(xié)同、可持續(xù)的生態(tài)體系。這一轉(zhuǎn)變,正呼應(yīng)了光合組織“智算無界,光合共生”的愿景。
- 往期爆款 -
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.