網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

別再盲目堆卡了！企業(yè)AI算力，這種超節(jié)點(diǎn)才是剛需

2026-03-26 17:34:44　來源: EEWorld電子工程世界

云南舉報(bào)

分享至

隨著國(guó)內(nèi)掀起“全民養(yǎng)蝦”熱潮，人們逐漸發(fā)現(xiàn)，算力才是數(shù)字化轉(zhuǎn)型的“硬通貨”。然而，隨著LLM、Agent應(yīng)用爆發(fā)式增長(zhǎng)，企業(yè)卻紛紛陷入了焦慮。

當(dāng)前，8卡服務(wù)器是主流，在模型研發(fā)初期，它能從容承接小模型訓(xùn)練、輕量推理及原型驗(yàn)證等需求，是入門利器。可當(dāng)AI產(chǎn)業(yè)邁入商業(yè)化深水區(qū)，8卡服務(wù)器的局限性便徹底暴露，淪為發(fā)展瓶頸。有人試圖通過堆卡解決問題，可動(dòng)輒數(shù)百卡、上千卡的大規(guī)模超節(jié)點(diǎn)集群，對(duì)絕大多數(shù)企業(yè)而言都堪稱天文數(shù)字。

算力瓶頸已成為企業(yè)數(shù)字化轉(zhuǎn)型的“攔路虎”。在此背景下，中科曙光3月26日在中關(guān)村論壇發(fā)布的世界首個(gè)無線纜箱式超節(jié)點(diǎn)scaleX40，就尤其值得關(guān)注。對(duì)此，行業(yè)人士分析，在8卡的性能瓶頸與大集群的高成本之間，定位在普及型超節(jié)點(diǎn)的sacleX40有望快速填補(bǔ)市場(chǎng)空白，成為破局關(guān)鍵。

算力選型的誤區(qū)

首先，傳統(tǒng)8卡服務(wù)器因部署簡(jiǎn)便、成本可控，一度成為企業(yè)的主流優(yōu)選。不過，隨著大模型參數(shù)量向千億、萬億發(fā)展，MoE架構(gòu)成為主流，8卡服務(wù)器開始顯存容量吃緊、多驟機(jī)協(xié)同效率降、并發(fā)推理能力不足，很明顯不夠用了。此外，傳統(tǒng)8卡服務(wù)器還有高TCO、升級(jí)改造復(fù)雜、適配難度大等多重問題，已難以滿足日益增長(zhǎng)的AI訓(xùn)練與推理需求。就像用手機(jī)處理簡(jiǎn)單日常工作沒啥問題，但想做點(diǎn)復(fù)雜工作，哪怕多買幾部手機(jī)拼一起也解決不了問題，除非換PC。

其次，很多企業(yè)認(rèn)為只要不斷堆料，粗暴疊加卡的數(shù)量就能解決問題了。且不說上百卡乃至數(shù)百卡的集群采購(gòu)成本足夠燒光公司幾年的預(yù)算，后續(xù)的機(jī)房、運(yùn)維、電力成本也非常巨大，對(duì)絕大多數(shù)都過于昂貴，根本難以負(fù)擔(dān)。實(shí)際上，對(duì)這些公司來說，幾十卡已經(jīng)足夠，就算手持上百卡，大多時(shí)候系統(tǒng)也會(huì)閑置。就像每天拉幾十噸貨跑，一輛貨車裝不下，但也犯不上買火車。

最后，不少人轉(zhuǎn)而選擇云算力，看似靈活省心，可長(zhǎng)期高頻使用下來，按次計(jì)費(fèi)的成本居高不下，綜合算下來并不劃算，也難以支撐穩(wěn)定、規(guī)模化的業(yè)務(wù)運(yùn)行。更重要的是，最近短短三個(gè)月內(nèi)，AWS、谷歌云等廠商集體重塑定價(jià)策略，半年前AI創(chuàng)業(yè)者還能跟云廠商談?wù)劭郏F(xiàn)在能拿到配額就不錯(cuò)了。

所以，綜合來看，在8卡入門配置與超大規(guī)模集群之間，還需要一個(gè)過渡。

中小規(guī)模的“算力甜點(diǎn)區(qū)”

如果你時(shí)刻關(guān)注行業(yè)，可以看到迄今至少有8家廠商推出了自己的“超節(jié)點(diǎn)技術(shù)”。產(chǎn)品規(guī)格也不斷沖高，規(guī)模從64到上百，價(jià)格門檻層層抬升，但在這背后，真的能讓中小企業(yè)買得起、能落地的產(chǎn)品反而成為稀缺品。

行業(yè)普遍認(rèn)為，超節(jié)點(diǎn)規(guī)模存在性能收益邊際遞減，32卡~256卡為高性價(jià)比投資“甜點(diǎn)區(qū)”，越往大規(guī)模靠攏，性能冗余越多，資源浪費(fèi)也越嚴(yán)重。

32卡是千億級(jí)模型商業(yè)化落地的基本門檻，能覆蓋更廣泛的行業(yè)級(jí)應(yīng)用，顯存池可完整承載模型、梯度與訓(xùn)練數(shù)據(jù)，既能支撐千億模型訓(xùn)練，也能滿足中等并發(fā)推理，是兼顧性能與成本的實(shí)用配置。

不過，企業(yè)業(yè)務(wù)始終動(dòng)態(tài)變化，模型規(guī)模與并發(fā)量隨時(shí)可能大幅提升，需要在32卡的基礎(chǔ)上進(jìn)一步拓展能力邊界。此時(shí)就存在一個(gè)兼顧性能與成本的“算力甜點(diǎn)區(qū)”，不僅能夠?qū)⒉少?gòu)門檻從“億元級(jí)”拉低至“千萬級(jí)”，同時(shí)適配90%企業(yè)場(chǎng)景。

買得起、用得上、用得好的超節(jié)點(diǎn)

“算力甜點(diǎn)區(qū)”的存在并非秘密，但市場(chǎng)上真正落地又好用的產(chǎn)品卻寥寥無幾。中科曙光便推出了全球首個(gè)箱式無線纜超節(jié)點(diǎn)scaleX40，讓超節(jié)點(diǎn)成為中國(guó)算力標(biāo)配。

在此之前，曙光發(fā)布了面向大規(guī)模算力需求的超節(jié)點(diǎn)scaleX640，證明了自身在“大算力”領(lǐng)域的實(shí)力。然而，要讓更多企業(yè)真正享受到超節(jié)點(diǎn)的技術(shù)紅利，就必須向下兼容，這正是scaleX40的使命。從scaleX640的極致性能到scaleX40的普及落地，曙光實(shí)現(xiàn)了從“頂配”到“標(biāo)配”的全場(chǎng)景覆蓋。

scaleX40采用標(biāo)準(zhǔn)19英寸箱式設(shè)計(jì)，打破傳統(tǒng)柜式超節(jié)點(diǎn)的高門檻，以無線纜、即插即用為特色，讓企業(yè)無需改造機(jī)房、無需專業(yè)運(yùn)維即可擁有超節(jié)點(diǎn)級(jí)算力。為了能夠一站式搞定超節(jié)點(diǎn)運(yùn)維管理、大模型和智能體開發(fā)，曙光還推出了SothisAI平臺(tái)。

scaleX40的目標(biāo)場(chǎng)景包括互聯(lián)網(wǎng)、金融、科教、電網(wǎng)、醫(yī)療、運(yùn)營(yíng)商六大領(lǐng)域，典型應(yīng)用比如，智能客服、智能投研、風(fēng)險(xiǎn)控制、網(wǎng)絡(luò)故障預(yù)測(cè)、醫(yī)學(xué)影像輔助、虛擬實(shí)驗(yàn)、智能教學(xué)等。

scaleX40超節(jié)點(diǎn)共有五個(gè)亮點(diǎn)：一是內(nèi)置40張AI加速卡，總算力超過28 PFLOPS（FP8精度），總顯存超過5TB，訪存帶寬突破80TB/s；二是40張加速卡實(shí)現(xiàn)一級(jí)Scale-Up全互連，持內(nèi)存語義與統(tǒng)一顯存編址，聚合帶寬超過17TB/s；三是采用正交架構(gòu)，相比傳統(tǒng)銅纜方案可用性提升10倍，對(duì)比光纖連接功耗降低40%~70%；四是設(shè)備尺寸采用標(biāo)準(zhǔn)19英寸規(guī)格，兼容主流機(jī)柜，支持單柜單Pod或單柜雙Pod的靈活部署方式；五是開箱即用，兼容主流軟件生態(tài)，擁有配套的開發(fā)工具、基礎(chǔ)軟件、AI大模型與應(yīng)用，用戶可輕松完成大模型遷移，開箱即用。

與傳統(tǒng)8卡機(jī)方案相比，scaleX40在成本幾乎持平的前提下，訓(xùn)練性能提升20%，推理性能更是大幅提升40%。與組合柜式超節(jié)點(diǎn)相比，采購(gòu)門檻數(shù)量級(jí)下降。

值得一提的是，通過“scaleX40（計(jì)算）+ ScaleFabric（網(wǎng)絡(luò)）+ ParaStor F9000（存儲(chǔ)）”的存算傳三級(jí)強(qiáng)協(xié)同技術(shù)架構(gòu)，訓(xùn)推帶寬提升2倍以上，大模型推理TTFT降低97%，GPU利用率提升，KV cache offload卸載顯存壓力。

經(jīng)過測(cè)試，在vLLM+ParaStor+XDS+KV cache offload框架、scaleX40+scaleFabric（400G IB互連+ParaStor F9000的環(huán)境下，DeepSeek-R1-0528-671B的TTFT時(shí)場(chǎng)降低了97.3%，破局了當(dāng)下推理性能瓶頸。

此外，scaleX40也支持OpenClaw私有化部署，為每位用戶提供專屬AI智能助手，聯(lián)動(dòng)平臺(tái)skill、API及Agent，實(shí)現(xiàn)超節(jié)點(diǎn)高效管理與應(yīng)用。

回歸理性，敏捷超節(jié)點(diǎn)是AI富場(chǎng)景落地的最優(yōu)解

最佳算力不是最貴的，而是最匹配業(yè)務(wù)的，理性選型的核心是“剛剛好”。40卡之所以成為行業(yè)共識(shí)，正是因?yàn)樗茸銐蛎艚荩衷凇皦蛴谩迸c“不浪費(fèi)”之間找到了黃金平衡點(diǎn)。

scaleX40的發(fā)布，一方面定義了性能上限，展現(xiàn)了頂尖的互連拓?fù)渑c集成能力，為多種AGI技術(shù)路線提供了極致算力支撐，另一方面提升了全系標(biāo)準(zhǔn)，其核心架構(gòu)（統(tǒng)一互連、全局內(nèi)存、異構(gòu)支持）將惠及整個(gè)產(chǎn)品矩陣，確保客戶無論從小規(guī)模起步驗(yàn)證技術(shù)路線，還是擴(kuò)展至大規(guī)模部署，都能獲得一致的體驗(yàn)。

這意味著，無論客戶的集群規(guī)模大小、技術(shù)路線如何選擇，都能依托源自同一技術(shù)藍(lán)圖的先進(jìn)架構(gòu)優(yōu)勢(shì)，獲得適配自身需求的最優(yōu)方案。

更重要的是，scaleX40在性能與成本間取得平衡，向下可兼容32卡配置，向上則可通過擴(kuò)展構(gòu)建更大規(guī)模的集群，這種靈活性，使企業(yè)能夠根據(jù)自身業(yè)務(wù)節(jié)奏分步投入，而非一次性押注。

技術(shù)的價(jià)值一定要回歸千行百業(yè)，喧囂退去，務(wù)實(shí)才是長(zhǎng)久之道，曙光的scaleX40無疑做到了這一點(diǎn)。

來源：電子工程世界（EEWorld）作者：付斌

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.