![]()
智東西
作者 | 程茜
編輯 | 漠影
歷經(jīng)484天,全球AI產(chǎn)業(yè)翹首以盼的DeepSeek-V4正式發(fā)布、全面開源,其同步甩出的一份硬核技術(shù)報(bào)告,為算力時(shí)代的演進(jìn)寫下全新注腳。
它以系統(tǒng)級(jí)創(chuàng)新,將KV Cache規(guī)模擴(kuò)展至百萬級(jí)上下文;系統(tǒng)性壓縮機(jī)制的引入,既降低存儲(chǔ)與計(jì)算的龐大開銷,也將計(jì)算流水線的深度與復(fù)雜度推向新高度,這每一處技術(shù)突破,都是對(duì)算力發(fā)展極限的叩問。
再將時(shí)間撥回2025年末,還有一筆打破常規(guī)的交易橫空出世:英偉達(dá)以200億美元天價(jià)拿下AI推理芯片獨(dú)角獸Groq LPU推理技術(shù)的非獨(dú)家授權(quán),并將核心團(tuán)隊(duì)納入麾下。
DeepSeek-V4的技術(shù)演進(jìn),為數(shù)據(jù)流架構(gòu)釋放極限性能提供了適配場(chǎng)景;Groq 被英偉達(dá)收編后也同樣押注的是數(shù)據(jù)流架構(gòu)方向,這一產(chǎn)業(yè)新變量已然躋身全球AI產(chǎn)業(yè)核心舞臺(tái),成為撬動(dòng)算力革命浪潮的重要力量。
算力革命的洪流奔涌向前,巨頭的每一次布局,都暗藏著行業(yè)迭代的風(fēng)向。回望計(jì)算機(jī)技術(shù)的演進(jìn),每一次劃時(shí)代的技術(shù)革命,本質(zhì)上都是一場(chǎng)對(duì)算力平臺(tái)的豪賭,技術(shù)路線的選擇往往決定了未來數(shù)十年的產(chǎn)業(yè)格局。
在PC與互聯(lián)網(wǎng)的時(shí)代,英特爾(Intel)憑借x86架構(gòu)的絕對(duì)性能統(tǒng)治了算力疆域,并在此基礎(chǔ)上構(gòu)筑了難以撼動(dòng)的軟件生態(tài)帝國(guó)。然而,隨著HPC與AI浪潮的到來,技術(shù)范式悄然切換。英偉達(dá)(NVIDIA)以CUDA生態(tài)配合TensorCore架構(gòu),較x86架構(gòu)實(shí)現(xiàn)了十倍的性能躍遷,確立了其新一代算力霸主的地位,助其登頂全球市值之巔,完成了從圖形處理器到AI引擎桂冠的加冕。
因此,英偉達(dá)創(chuàng)始人、CEO黃仁勛比任何人都清楚,算力平臺(tái)的更迭從不溫情脈脈。當(dāng)年英特爾在x86生態(tài)的溫柔鄉(xiāng)中沉睡,未能預(yù)見并行計(jì)算的浪潮;如今英偉達(dá)坐擁CUDA帝國(guó),正直面一個(gè)更殘酷的現(xiàn)實(shí)——當(dāng)Transformer架構(gòu)的算力需求每?jī)赡瓯q750倍,當(dāng)單卡算力逼近物理極限,誰會(huì)成為新一代的算力平臺(tái)?
十倍級(jí)的代際躍遷往往誕生于架構(gòu)的顛覆而非工藝的改良。在GTC 2026大會(huì)上,英偉達(dá)正式推出Groq 3 LPX機(jī)架級(jí)推理平臺(tái),黃仁勛稱,Groq 3 LPX平臺(tái)與Vera Rubin NVL72結(jié)合使用的混合架構(gòu),可實(shí)現(xiàn)GPU強(qiáng)勁算力與LPU極致帶寬的完美互補(bǔ)。這迅速引發(fā)行業(yè)關(guān)注。
縱觀產(chǎn)業(yè)界,除了英偉達(dá)這個(gè)GPU霸主,正在給自己找一條“非GPU”的退路,此前英特爾被傳以16億美元價(jià)格收購(gòu)SambaNova,后轉(zhuǎn)向深度合作。巨頭們的焦慮已寫在臉上。
而在國(guó)內(nèi),大額融資、訂單的橄欖枝紛紛拋向鯤云科技等企業(yè)。
這些看似分散的熱點(diǎn),其實(shí)指向同一個(gè)技術(shù)原點(diǎn)——可重構(gòu)數(shù)據(jù)流架構(gòu)。
冰凍三尺,非一日之寒,新技術(shù)的演進(jìn)、成熟、落地也非一朝一夕之功。技術(shù)的起點(diǎn)不在GPU架構(gòu)性能瓶頸逐漸明確的當(dāng)下、亦不在GPU挑戰(zhàn)CPU全球算力霸主的時(shí)代;它的起點(diǎn)在更早之前,在英偉達(dá)還未成立之時(shí),在那個(gè)制程工藝快速迭代、CPU仍然統(tǒng)治算力平臺(tái)的時(shí)代,從幾個(gè)學(xué)者的興趣到學(xué)術(shù)社區(qū)的建立,從一代代實(shí)驗(yàn)室技術(shù)的傳承到產(chǎn)業(yè)化的星火燎原,至今已過了三十多年。
讓我們把時(shí)鐘撥回35年前,從牛津大學(xué)的一間會(huì)議室說起。
一、帝國(guó)理工學(xué)院的一間實(shí)驗(yàn)室,可重構(gòu)數(shù)據(jù)流架構(gòu)火種誕生(1991-2000)
1991年,牛津大學(xué)的一間會(huì)議室內(nèi),陸永青博士籌備了一場(chǎng)計(jì)算機(jī)體系架構(gòu)的研討會(huì),一種新的架構(gòu)思路開始被討論:改變硬件來適配軟件應(yīng)用。
傳統(tǒng)架構(gòu)依賴指令集體系進(jìn)行計(jì)算管理,指令間通過統(tǒng)一的存儲(chǔ)地址空間進(jìn)行配合,造成數(shù)據(jù)讀寫與計(jì)算的串行關(guān)系,影響計(jì)算效率提升。
如果在架構(gòu)設(shè)計(jì)中將所有指令集移除,依靠深度流水線與數(shù)據(jù)流動(dòng)次序控制計(jì)算,如下圖所示,理論上不存在數(shù)據(jù)讀寫帶來的計(jì)算空閑,可以發(fā)揮物理極限性能。與此同時(shí),在運(yùn)行時(shí)重構(gòu)計(jì)算電路,則可以解決計(jì)算通用性。
![]()
陸永青與其導(dǎo)師Ian Page找到了新的路徑,其推出的Occam高層編譯方法成為可重構(gòu)數(shù)據(jù)流架構(gòu)歷史上首次給出的系統(tǒng)性工程化方案,在這次牛津大學(xué)研討會(huì)上發(fā)表,成為后來Handel-C編譯器的基礎(chǔ):用C語(yǔ)言做硬件并利用現(xiàn)場(chǎng)可編程技術(shù),去兼顧極致性能與架構(gòu)通用性。
這次研討會(huì),后來成為歐洲最大的可重構(gòu)計(jì)算頂會(huì)FPL(現(xiàn)場(chǎng)可編程邏輯),連同陸永青創(chuàng)立的亞洲頂會(huì)FPT、其作為創(chuàng)刊主編創(chuàng)立的ACM TRETS,在此后的數(shù)十年間,成為這個(gè)新技術(shù)路線的主陣地。
不同于英特爾、英偉達(dá)所主導(dǎo)的固定硬件架構(gòu),改變軟件適配不同應(yīng)用,新誕生的技術(shù)專注于完全相反的方向:改變硬件適配不同應(yīng)用。類比到汽車制造行業(yè),就相當(dāng)于工廠能夠改變流水線配置,從而針對(duì)不同車型打造專門的流水線,并通過傳送帶替代人工搬運(yùn)來解決數(shù)據(jù)搬運(yùn)的時(shí)間消耗,這種架構(gòu)思路通常能帶來10倍甚至百倍的性能提升。
![]()
1991年FPL海報(bào)(圖源:FPL會(huì)議官網(wǎng))
9月6日,會(huì)議結(jié)束,從此開創(chuàng)了一個(gè)全新的計(jì)算架構(gòu),就是如今可重構(gòu)數(shù)據(jù)流架構(gòu)的雛形,奠定了該技術(shù)未來的核心發(fā)展方向。作為創(chuàng)始人的陸永青也成為推動(dòng)這一領(lǐng)域發(fā)展的關(guān)鍵先驅(qū)人物。
1995年,他從牛津大學(xué)轉(zhuǎn)職帝國(guó)理工學(xué)院,成立定制計(jì)算實(shí)驗(yàn)室。作為可重構(gòu)數(shù)據(jù)流技術(shù)的源頭實(shí)驗(yàn)室,Groq、SambaNova、鯤云科技這些國(guó)內(nèi)外知名創(chuàng)企的成立、演進(jìn),都與這家實(shí)驗(yàn)室有著千絲萬縷的聯(lián)系。
技術(shù)的終極命題在于更好的落地應(yīng)用。定制計(jì)算實(shí)驗(yàn)室誕生初期瞄準(zhǔn)的就是可重構(gòu)數(shù)據(jù)流架構(gòu)的兩大核心挑戰(zhàn):
?數(shù)據(jù)流,面向特定應(yīng)用場(chǎng)景實(shí)現(xiàn)逼近物理極限的計(jì)算性能;
?可重構(gòu),在多樣化場(chǎng)景的定制化架構(gòu)間實(shí)現(xiàn)靈活切換與通用適配。
后來Occam編譯技術(shù)被分拆,成立了Celoxica,其Handel-C工具鏈部分被歐洲EDA巨頭Mentor Graphics收購(gòu),而這家巨頭就是如今大名鼎鼎的西門子EDA。
Celoxica的誕生,首次將可重構(gòu)數(shù)據(jù)流架構(gòu)從理論構(gòu)想淬煉為可供產(chǎn)業(yè)使用的算力方案。陸永青與德國(guó)學(xué)者M(jìn)arkus Weinhardt所奠定的流水線矢量化方法,也借此完成了從學(xué)術(shù)創(chuàng)想到工業(yè)基座的蛻變,為即將到來的技術(shù)浪潮埋下了決定性伏筆。
二、大西洋兩岸火種交匯,三代學(xué)者接力啃下產(chǎn)業(yè)化難題(2000-2016)
與此同時(shí),大西洋彼岸的斯坦福大學(xué),亦點(diǎn)燃了可重構(gòu)數(shù)據(jù)流架構(gòu)的研究火種。
同為各自技術(shù)路線的奠基學(xué)者,陸永青與Flynn為多年朋友。Flynn教授雖然一直鐘情于指令集架構(gòu)研究,但他在Bell Labs工作的學(xué)生Oskar Mencer卻對(duì)硬件數(shù)據(jù)流架構(gòu)情有獨(dú)鐘,由他主導(dǎo)推進(jìn)的StReAm,正是面向自適應(yīng)計(jì)算設(shè)計(jì)的典型數(shù)據(jù)流架構(gòu)。
在奧地利FPL會(huì)議上,陸永青與Mencer相識(shí),大西洋兩岸的研究星火正式交匯,其后Mencer加入帝國(guó)理工任教職人員,他們合力推動(dòng)數(shù)據(jù)流電路的極致優(yōu)化,通過將流水線中所有軟件移出,讓硬件流水線獲得逼近物理極限的性能,實(shí)現(xiàn)每個(gè)計(jì)算單元每個(gè)時(shí)鐘周期都進(jìn)行有效計(jì)算。
![]()
陸永青(左一)、Oskar Mencer(左二)獲帝國(guó)理工學(xué)院卓越研究獎(jiǎng)(圖源:帝國(guó)理工學(xué)院官網(wǎng))
隨著研究不斷深入,可重構(gòu)數(shù)據(jù)流架構(gòu)與產(chǎn)業(yè)界的結(jié)合日益深厚,金融、醫(yī)療、石油勘探都成為這一技術(shù)路徑發(fā)揮作用的場(chǎng)景。2003年,雪弗龍石油的油田勘探工作受算力瓶頸制約,Mencer打造了高性能加速計(jì)算平臺(tái),實(shí)現(xiàn)了油田鉆井效率的百倍提升。
這之后,Mencer主導(dǎo)成立的Maxeler Technologies將上述研發(fā)成果產(chǎn)業(yè)化,后來他慢慢專注于Maxeler的管理,逐漸淡出定制計(jì)算實(shí)驗(yàn)室。
Maxeler的數(shù)據(jù)流計(jì)算系統(tǒng)客戶可謂大名鼎鼎,包含金融領(lǐng)域的JP Morgan、Citibank,能源領(lǐng)域的雪弗龍、ENI,還有英國(guó)Daresbury、德國(guó)Jülich等國(guó)家級(jí)超算中心。Maxeler與這些客戶的合作證明,可重構(gòu)數(shù)據(jù)流架構(gòu)已經(jīng)成為企業(yè)關(guān)鍵業(yè)務(wù)的剛需算力載體。
Mencer之后,海內(nèi)外學(xué)者前赴后繼。
陸永青教授創(chuàng)辦的帝國(guó)理工定制計(jì)算實(shí)驗(yàn)室成為北美、歐洲、亞洲學(xué)術(shù)討論與交流的交匯點(diǎn)。Michael Flynn之后多位指令集技術(shù)體系學(xué)者到定制計(jì)算實(shí)驗(yàn)室交流訪學(xué),其中就包括斯坦福大學(xué)的Kunle Olukotun教授。多年后,Groq收購(gòu)了Mencer創(chuàng)辦的Maxeler Technologies,而Groq正是當(dāng)時(shí)Olukotun創(chuàng)立的SambaNova在美國(guó)最大的競(jìng)爭(zhēng)對(duì)手,亦是這種全球技術(shù)交流下的必然。
隨后,協(xié)助陸永青管理實(shí)驗(yàn)室的,同樣是一位香港學(xué)者:本碩博均畢業(yè)于香港中文大學(xué)的蔡權(quán)雄。他在定制計(jì)算實(shí)驗(yàn)室主導(dǎo)了CUBE與Axel集群兩大標(biāo)志性項(xiàng)目,為可重構(gòu)計(jì)算的規(guī)模化驗(yàn)證打下了重要工程基礎(chǔ)。
其中,CUBE將64顆FPGA在一個(gè)超大型印刷電路板上用Torus互聯(lián)結(jié)構(gòu)組成更大計(jì)算節(jié)點(diǎn),谷歌TPU團(tuán)隊(duì)用2D Torus將TPU互聯(lián)也采用了類似思路。
Axel集群則是用32臺(tái)異構(gòu)計(jì)算節(jié)點(diǎn),每個(gè)計(jì)算節(jié)點(diǎn)包含F(xiàn)PGA加速卡、GPU加速卡、高性能CPU,節(jié)點(diǎn)間用InfiniBand和Gigabit Ethernet互聯(lián),成為支撐實(shí)驗(yàn)室多年科研工作的核心算力平臺(tái)。
![]()
CUBE項(xiàng)目論文主頁(yè)
啃下這兩塊硬骨頭后,對(duì)工程實(shí)現(xiàn)充滿熱情的蔡權(quán)雄投身工業(yè)界,挑戰(zhàn)“芯片”這一大工程,后續(xù)加入英國(guó)芯片企業(yè)Imagination Technologies負(fù)責(zé) SoC芯片研發(fā)。
畢業(yè)于復(fù)旦大學(xué)的新一代的實(shí)驗(yàn)室負(fù)責(zé)人牛昕宇成為推動(dòng)可重構(gòu)數(shù)據(jù)流向ASIC演進(jìn)的關(guān)鍵人物。
憑借高度可編程性,F(xiàn)PGA曾長(zhǎng)期作為定制計(jì)算實(shí)驗(yàn)室研發(fā)與產(chǎn)業(yè)化的主力平臺(tái)。其多粒度可重構(gòu)特性可完美適配各類可重構(gòu)數(shù)據(jù)流架構(gòu),實(shí)現(xiàn)極高的算力利用率,但比特級(jí)重構(gòu)依賴大量SRAM,在芯片面積、功耗與重構(gòu)延遲上付出數(shù)倍乃至十倍代價(jià)。
這讓可重構(gòu)數(shù)據(jù)流架構(gòu)的優(yōu)勢(shì)被現(xiàn)有驗(yàn)證平臺(tái)自身的巨大開銷抵消,性能增益被嚴(yán)重抹平,尤其在與英偉達(dá)新一代旗艦芯片的正面交鋒中,二者峰值算力差距懸殊,在實(shí)際應(yīng)用層面難以展現(xiàn)其性能優(yōu)勢(shì)。
從成立鯤云科技后的技術(shù)與產(chǎn)品方向來看,當(dāng)時(shí)牛昕宇已經(jīng)意識(shí)到必須要找到足夠深的應(yīng)用場(chǎng)景做ASIC芯片,才能徹底釋放這一架構(gòu)的全部潛能。
而當(dāng)時(shí)時(shí)代拋給他們的命題是:究竟哪個(gè)戰(zhàn)場(chǎng),才擁有足夠磅礴的算力需求,足以支撐起這樣一顆全新架構(gòu)ASIC芯片的誕生?
![]()
陸永青(左)、牛昕宇(右)(圖片來自網(wǎng)絡(luò))
時(shí)值2011年前后,這個(gè)問題在實(shí)驗(yàn)室內(nèi)部無人能解,放眼全球業(yè)界亦無定論。可編程邏輯解決方案供應(yīng)商Tabula曾以通信領(lǐng)域?yàn)橥黄瓶冢谫Y逾兩億美元大舉推進(jìn),最終未能打通產(chǎn)業(yè)化通路。
面對(duì)前路迷霧,實(shí)驗(yàn)室在仿真計(jì)算、生物計(jì)算、金融計(jì)算與機(jī)器學(xué)習(xí)場(chǎng)景探索的研究成果陸續(xù)發(fā)表,幾乎覆蓋了當(dāng)時(shí)所有具備潛力的高性能計(jì)算場(chǎng)景。在實(shí)踐中,牛昕宇與陸永青給出了最務(wù)實(shí)的答案:既然方向未明,便廣撒網(wǎng)、逐場(chǎng)試煉。
站在2026年回望,答案已不言而喻,真正承載起磅礴算力需求的,正是彼時(shí)方才萌芽的全新算法浪潮:深度學(xué)習(xí)。然而在十五年前,探索者們只能靠一次次試錯(cuò)與返航,慢慢拼湊出完整的技術(shù)版圖。從實(shí)驗(yàn)室同期發(fā)表的成果中不難窺見,其研究重心逐步收斂:從各類通用應(yīng)用,聚焦到卷積與矩陣運(yùn)算,最終錨定深度學(xué)習(xí)加速。
在這條沒有前路可參照的長(zhǎng)期主義創(chuàng)新道路上,陸永青以600余篇高水平論文,構(gòu)筑起可重構(gòu)計(jì)算領(lǐng)域堅(jiān)實(shí)的理論與技術(shù)根基,成為國(guó)際上少有的三院院士(IEEE Fellow、英國(guó)計(jì)算機(jī)學(xué)會(huì)會(huì)士與英國(guó)皇家工程院院士),在這一領(lǐng)域擁有無可替代的學(xué)術(shù)地位,其研究成果深刻影響了賽道內(nèi)一系列關(guān)鍵方向的發(fā)展。
從陸永青奠基開創(chuàng)、點(diǎn)燃可重構(gòu)計(jì)算的學(xué)術(shù)火種,到蔡權(quán)雄、牛昕宇等人接力傳承、持續(xù)添薪,三代人跨越二十載深耕不輟,讓可重構(gòu)數(shù)據(jù)流架構(gòu)與深度學(xué)習(xí)的交匯之路,從模糊理念走向清晰圖景探索。
![]()
三、下一代算力平臺(tái)之爭(zhēng):從群雄并起到三分天下(2017年至今)
2017年,AlphaGo的火熱與谷歌TPU的出世,為可重構(gòu)數(shù)據(jù)流架構(gòu)的AI芯片產(chǎn)業(yè)化鋪平了最后的道路。帝國(guó)理工定制計(jì)算實(shí)驗(yàn)室核心團(tuán)隊(duì):實(shí)驗(yàn)室創(chuàng)始人與兩代實(shí)驗(yàn)室負(fù)責(zé)人回國(guó)創(chuàng)立鯤云科技,正式啟動(dòng)了中國(guó)的產(chǎn)業(yè)化征途。
與此同時(shí),大洋彼岸的硅谷,一場(chǎng)同樣聚焦可重構(gòu)數(shù)據(jù)流技術(shù)的算力角逐同步啟幕。SambaNova與Groq相繼成立,成為攪動(dòng)全球AI芯片格局的新生力量。
Groq由深度參與谷歌第一代TPU研發(fā)的Jonathan Ross帶領(lǐng)核心研發(fā)陣營(yíng)創(chuàng)辦。為打造數(shù)據(jù)流技術(shù)壁壘,2022年3月,Groq收購(gòu)了定制計(jì)算實(shí)驗(yàn)室在鯤云之前的產(chǎn)業(yè)化企業(yè)Maxeler,將其核心技術(shù)納入麾下,在后續(xù)產(chǎn)品迭代中深度融合數(shù)據(jù)流相關(guān)技術(shù),構(gòu)建起自身的技術(shù)競(jìng)爭(zhēng)力。
![]()
而與Groq并肩站上賽道的SambaNova,由斯坦福大學(xué)兩位教授Kunle Olukotun、Christopher Ré,以及甲骨文前高管Rodrigo Liang聯(lián)合創(chuàng)立。
作為核心技術(shù)靈魂人物,Kunle Olukotun教授早年深耕多核CPU計(jì)算領(lǐng)域,后將研究重心轉(zhuǎn)向可重構(gòu)計(jì)算,與帝國(guó)理工學(xué)院定制計(jì)算實(shí)驗(yàn)室建立合作。可以看到,在創(chuàng)立SambaNova前后,Olukotun教授于2018年出席了鯤云科技在深圳主辦的全球人工智能應(yīng)用創(chuàng)新峰會(huì),同場(chǎng)的MIT的Arvind教授,曾從事早期動(dòng)態(tài)數(shù)據(jù)流架構(gòu)的研究工作。這是一次技術(shù)產(chǎn)業(yè)化的早期碰撞。
![]()
Kunle Olukotun教授(左三),Arvind教授(左七)(圖片來自網(wǎng)絡(luò))
時(shí)代浪潮下,全球算力賽道技術(shù)演進(jìn)逐步走向深水區(qū)。彼時(shí)少有人關(guān)注的可重構(gòu)數(shù)據(jù)流技術(shù)交流日深,而同期崛起的企業(yè)路線漸漸分野,最終在可重構(gòu)數(shù)據(jù)流計(jì)算的版圖上,鐫刻出三大核心技術(shù)方向:數(shù)據(jù)流架構(gòu)、可重構(gòu)架構(gòu),以及兼具二者優(yōu)勢(shì)、融合創(chuàng)新的可重構(gòu)數(shù)據(jù)流架構(gòu),開啟了三足鼎立的技術(shù)博弈時(shí)代。
![]()
可重構(gòu)數(shù)據(jù)流架構(gòu)賽道三條技術(shù)路線(智東西制表)
數(shù)據(jù)流路線以谷歌TPU及Groq為代表,從谷歌TPU的脈動(dòng)陣列,到Groq LPU,始終圍繞深度學(xué)習(xí)構(gòu)建極致硬件流水線,一路向著物理性能的天花板突進(jìn)。
2016年,谷歌發(fā)布第一代TPU,以片內(nèi)固定計(jì)算陣列為骨架,憑借二維數(shù)據(jù)流執(zhí)行模式,實(shí)現(xiàn)確定性、高吞吐的強(qiáng)悍算力輸出。時(shí)至今日,TPU的產(chǎn)業(yè)地位已如日中天:AI獨(dú)角獸Anthropic高達(dá)210億美元的巨額訂單、Meta數(shù)十億美元的采購(gòu)協(xié)議紛紛投向谷歌,蘋果、SpaceX等科技巨頭亦成為其潛在重要客戶,數(shù)據(jù)流架構(gòu)的戰(zhàn)略價(jià)值盡顯無遺。
Groq的誕生,是谷歌第一代TPU核心團(tuán)隊(duì)對(duì)“無指令集”理念的極致貫徹。創(chuàng)始人Jonathan Ross深諳脈動(dòng)陣列之痛,為Groq LPU選擇了一條最激進(jìn)的路徑:徹底拋棄馮·諾依曼架構(gòu)的指令調(diào)度,將硬件打磨為一條剛性的超級(jí)流水線。2024年2月,Groq憑借運(yùn)行Llama 2 70B時(shí)十倍于同期GPU的生成速度與極低延遲,一戰(zhàn)成名,讓世界看到了架構(gòu)的性能神話和在大模型推理時(shí)代的統(tǒng)治力。
可重構(gòu)陣營(yíng),SambaNova憑借硬件動(dòng)態(tài)重構(gòu)能力,可在電路運(yùn)行時(shí)靈活改變結(jié)構(gòu),通用性遠(yuǎn)超傳統(tǒng)數(shù)據(jù)流架構(gòu)。在其白皮書設(shè)計(jì)中,計(jì)算單元互聯(lián)采用可重構(gòu)架構(gòu),核心計(jì)算基于SIMD核,終究難以擺脫指令集束縛,無法觸及無指令集數(shù)據(jù)流流水線的極致性能。
鯤云科技則是可重構(gòu)數(shù)據(jù)流陣營(yíng)的代表企業(yè),其架構(gòu)本質(zhì)集可重構(gòu)與數(shù)據(jù)流優(yōu)勢(shì):數(shù)據(jù)流以硬件流水線形式提供極限性能,可重構(gòu)以動(dòng)態(tài)可重構(gòu)調(diào)整硬件電路提供通用性。鯤云科技發(fā)布的初代產(chǎn)品CAISA3.0(全球首款可重構(gòu)數(shù)據(jù)流量產(chǎn)芯片),第三方測(cè)試數(shù)據(jù)顯示,相較于同期英偉達(dá)產(chǎn)品,CAISA3.0實(shí)現(xiàn)了高達(dá)11.6倍的芯片利用率提升與134.93倍的延遲降低,以量級(jí)優(yōu)勢(shì)展現(xiàn)了可重構(gòu)數(shù)據(jù)流架構(gòu)的潛力。第二代芯片CAISA430量產(chǎn)和進(jìn)一步落地,其在深度學(xué)習(xí)和大模型推理等模型支持上延續(xù)了同等的性能代際優(yōu)勢(shì)。
![]()
綜上,一眾先鋒企業(yè)入局可重構(gòu)數(shù)據(jù)流領(lǐng)域,開啟產(chǎn)業(yè)化征途。點(diǎn)點(diǎn)星火就此匯聚,東西方頂尖技術(shù)力量形成呼應(yīng),終成席卷下一代計(jì)算架構(gòu)的燎原之勢(shì)。
四、可重構(gòu)數(shù)據(jù)流性能神話之后,規(guī)模化商業(yè)化突圍
正如開篇所言,大道至簡(jiǎn),一代算力平臺(tái)的崛起,終究要回歸產(chǎn)品層面的兩大核心拷問:其一,能否實(shí)現(xiàn)性能與延遲的十倍躍遷?其二,能否構(gòu)筑可積累、可演進(jìn)的算力生態(tài),支撐規(guī)模化商業(yè)落地?
Groq、鯤云科技等公開的基準(zhǔn)測(cè)試數(shù)據(jù)已足以驗(yàn)證可重構(gòu)數(shù)據(jù)流架構(gòu)對(duì)第一個(gè)核心問題的回答:它確實(shí)帶來了數(shù)量級(jí)的性能顛覆。
而隨著DeepSeek-V4正式發(fā)布,數(shù)據(jù)流架構(gòu)的天然優(yōu)勢(shì)進(jìn)一步得到證實(shí)。這類架構(gòu)的性能天花板,恰恰依托于更深、更復(fù)雜的計(jì)算流水線:流水線層級(jí)越長(zhǎng)、數(shù)據(jù)鏈路依賴越繁復(fù),數(shù)據(jù)流架構(gòu)在指令級(jí)并行調(diào)度、細(xì)粒度數(shù)據(jù)局部性挖掘、異步執(zhí)行隱藏訪存延遲上的先天優(yōu)勢(shì),就越能被發(fā)揮出來,性能增益也愈發(fā)顯著。
然而,性能的突破只是入場(chǎng)券,生態(tài)的壁壘才是護(hù)城河。在被收購(gòu)前,Groq通過Groq Cloud提供Token服務(wù),其架構(gòu)的通用性與生態(tài)的可積累性,外界難以窺探全貌。反觀國(guó)內(nèi),鯤云科技CAISA系列芯片已覆蓋2000余家生態(tài)客戶,實(shí)現(xiàn)行業(yè)遍地開花。國(guó)內(nèi)企業(yè)用商業(yè)進(jìn)展回答第二個(gè)核心問題:可重構(gòu)架構(gòu)或可重構(gòu)數(shù)據(jù)流架構(gòu),因?yàn)榫邆淇芍貥?gòu)能力,其算力平臺(tái)具有積累生態(tài)的能力。
另一面,則是科技巨頭對(duì)未來版圖的精準(zhǔn)收編。巨頭們看重的不再是短期的產(chǎn)品迭代,而是那些在長(zhǎng)達(dá)十幾年的孤獨(dú)探索中沉淀下來的頂尖人才與底層技術(shù)專利。其中最具代表性的是Groq和SambaNova。
去年年底,英偉達(dá)掏出200億美元天價(jià),與Groq簽訂非獨(dú)家授權(quán)協(xié)議,收編整個(gè)團(tuán)隊(duì)。Groq的技術(shù)已被整合進(jìn)英偉達(dá)最新的Rubin平臺(tái),今年GTC大會(huì)上英偉達(dá)發(fā)布NVIDIA Groq 3 LPU,基于Groq 3的LPX機(jī)架預(yù)計(jì)將在今年下半年上市。
![]()
NVIDIA Groq 3 LPX機(jī)架系統(tǒng)(圖源:英偉達(dá)官網(wǎng))
同年10月,英特爾被傳以16億美元(折合人民幣111億元)收購(gòu)SambaNova。今年2月塵埃落定,轉(zhuǎn)向合作,整合英特爾至強(qiáng)處理器、GPU、網(wǎng)絡(luò)與存儲(chǔ)以及SambaNova系統(tǒng),迎接推理機(jī)遇。
英偉達(dá)與英特爾相繼向這兩家新銳拋出橄欖枝,標(biāo)志著行業(yè)雙巨頭在現(xiàn)有布局之外,再落一枚至關(guān)重要的差異化戰(zhàn)略重子,直指持續(xù)爆發(fā)式增長(zhǎng)的AI推理市場(chǎng)核心腹地。
而這,正是可重構(gòu)數(shù)據(jù)流架構(gòu)真正大展宏圖的主場(chǎng)。
兩類企業(yè)路徑各異,卻在時(shí)代浪潮下殊途同歸:一方以規(guī)模化落地讓技術(shù)紅利普惠產(chǎn)業(yè),一方以巨頭生態(tài)融合讓前沿創(chuàng)新深度扎根。二者相向而行,共同將可重構(gòu)數(shù)據(jù)流計(jì)算架構(gòu)推向全新的歷史高度。
在這場(chǎng)波瀾壯闊的技術(shù)變革中,陸永青院士創(chuàng)立的定制計(jì)算實(shí)驗(yàn)室從學(xué)術(shù)探索走向工程實(shí)踐,再經(jīng)由鯤云科技等企業(yè)推向產(chǎn)業(yè)規(guī)模化落地。這一路演進(jìn),中國(guó)學(xué)者和芯片企業(yè)走出了一條自主可控、全球引領(lǐng)的差異化突圍之路,為中國(guó)在下一代智能計(jì)算架構(gòu)競(jìng)爭(zhēng)中搶占了寶貴的戰(zhàn)略先機(jī)。
結(jié)語(yǔ):三十載潮涌,中國(guó)芯的未來
不同于“中國(guó)英偉達(dá)”式的追趕敘事,可重構(gòu)數(shù)據(jù)流這類專注于底層創(chuàng)新的架構(gòu),在早期曾經(jīng)歷漫長(zhǎng)的沉寂與不被理解。國(guó)內(nèi)首批AI芯片企業(yè)幾乎同期而立,在英偉達(dá)籠罩行業(yè)的八年陰影里堅(jiān)守深耕,直至2025年前后才迎來資本化加速。一路走來,它們始終直面創(chuàng)新者的終極拷問:如果路線不及巨頭,憑何爭(zhēng)鋒?如果路線足以顛覆格局,為何巨頭未曾布局?
八年后,黃仁勛在GTC大會(huì)上親自發(fā)布Groq 3 LPU,給出了答案。
更具時(shí)代意義的是,當(dāng)全球產(chǎn)業(yè)界重新審視可重構(gòu)數(shù)據(jù)流架構(gòu)時(shí),中國(guó)團(tuán)隊(duì)已在這一領(lǐng)域深耕三十余年——從帝國(guó)理工的源頭實(shí)驗(yàn)室到中國(guó)的產(chǎn)業(yè)化落地,技術(shù)創(chuàng)新的源頭與產(chǎn)業(yè)化主陣地,正在發(fā)生歷史性的位移。
![]()
這一位移并非偶然。回顧中國(guó)芯片產(chǎn)業(yè)三十年,從”市場(chǎng)換技術(shù)”的合資模式,到”跟隨式創(chuàng)新”的追趕敘事,底層架構(gòu)的”從0到1″始終是最難的命題。可重構(gòu)數(shù)據(jù)流架構(gòu)的突圍路徑提供了另一種可能:當(dāng)學(xué)術(shù)源頭、工程驗(yàn)證、產(chǎn)業(yè)化形成完整鏈條,且核心團(tuán)隊(duì)始終主導(dǎo)技術(shù)演進(jìn)時(shí),中國(guó)首次在計(jì)算架構(gòu)的”無人區(qū)”擁有了與硅谷同步創(chuàng)新、甚至局部領(lǐng)先的能力。其所講述的也不再是“中國(guó)英偉達(dá)”或“中國(guó)Groq”故事,而是在全球范圍內(nèi)進(jìn)行源頭創(chuàng)新的“中國(guó)源頭故事”。
八年前,當(dāng)這一賽道尚處蠻荒、巨頭尚未入局時(shí),深圳的產(chǎn)業(yè)生態(tài)為這場(chǎng)”源頭創(chuàng)新”提供了關(guān)鍵土壤——完整的電子產(chǎn)業(yè)鏈降低了流片門檻,豐富的應(yīng)用場(chǎng)景加速了技術(shù)驗(yàn)證,而敢于在”無人區(qū)”下注的資本與政策環(huán)境,則讓長(zhǎng)周期創(chuàng)新成為可能。
從”海外技術(shù)輸入”到”本土創(chuàng)新輸出”,下一代計(jì)算架構(gòu)的主陣地轉(zhuǎn)移,本質(zhì)上是一場(chǎng)關(guān)于”創(chuàng)新生態(tài)”的長(zhǎng)期主義勝利。
接下來,讓我們拭目以待。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.