![]()
一道128×128的矩陣題,頂級英偉達GPU得吭哧吭哧算上一整天,而中國實驗室里一枚不靠EUV光刻機做出來的小芯片,一分鐘左右就把答案吐出來了。這不是宣傳稿里夸大的修辭,而是發(fā)表在《自然·電子學(xué)》上、有同行評議背書的硬數(shù)據(jù)。
在性能方面,這款芯片在求解32×32矩陣時已超越高端GPU內(nèi)核,對于更大規(guī)模的128×128問題,其計算吞吐量比頂級數(shù)字處理器快1000倍以上——GPU需要一整天完成的任務(wù),這款芯片大約一分鐘就能搞定。在同等精度下,它的能效也提升了100倍以上。
![]()
更扎心的是:這枚把英偉達打得不吱聲的芯片,用的不過是十幾年前就量產(chǎn)的成熟工藝。所謂"卡脖子"的EUV光刻機,在這條技術(shù)路徑里壓根沒出場。
業(yè)內(nèi)人都清楚,中國大陸能穩(wěn)穩(wěn)量產(chǎn)28納米,DUV設(shè)備早就鋪開。這條工藝等級聽起來"老舊",但配上對的架構(gòu),照樣能干出讓世界眼紅的活。
主角是北京大學(xué)人工智能研究院孫仲研究員牽頭的團隊。繞開光刻機"卡脖子",北京大學(xué)研究的新型芯片問世,計算精度從1%躍升至千萬分之一。
這款芯片可在28納米及以上成熟工藝量產(chǎn),繞開光刻機"卡脖子"環(huán)節(jié),能夠支撐6G、具身智能及AI大模型訓(xùn)練等多個前沿場景。千萬分之一是什么概念?相當于過去模擬計算的精度被一腳踩到油門底,往前沖了五萬倍。
![]()
成果分量到底有多重,看一個細節(jié)就明白:2025年12月25日,由科技日報社主辦、部分兩院院士和媒體負責(zé)人共同評選的"2025年國內(nèi)十大科技新聞"中,北京大學(xué)團隊研制的"高精度可擴展模擬矩陣計算芯片"成功入選。
![]()
紫光國微、兆易創(chuàng)新則因ReRAM產(chǎn)業(yè)化前景被市場看好而獲得資金追捧。這種反應(yīng)不是炒概念,而是產(chǎn)業(yè)鏈上下游都嗅到了真金白銀的味道——畢竟用的是現(xiàn)成產(chǎn)線,不需要重新砸錢建廠。
回看西方這幾年精心搭起來的制裁體系,邏輯其實就一句話:你做不出最先進的光刻機,你就出不了最強的芯片。
這個等式過去成立,是因為大家默認必須在數(shù)字芯片這條賽道上擠獨木橋。可一旦有人換了賽道,等式就直接崩了。28納米能干頂級AI訓(xùn)練的活,這事放在三年前幾乎沒人敢說。
![]()
模擬計算不是新鮮事物,反而帶著一股"老家底"的味道。
上世紀三四十年代,科學(xué)家用電壓、電流直接代表數(shù)字做運算,速度快、能耗低,可惜算出來的結(jié)果飄得厲害——溫度變一下、噪聲大一點,答案就跑偏。后來數(shù)字計算靠著穩(wěn)定可靠的0和1贏了這場世紀大戰(zhàn),模擬計算被掃進了博物館。
孫仲團隊干的事,說白了就是把這個被判了"死刑"的老技術(shù)重新拉回擂臺,并給它裝上了一顆新心臟。
![]()
直覺上的優(yōu)勢其實從來沒變過。人類從小算"1+1",并非動用28個晶體管,而是"一根筷子加一根筷子等于兩根筷子"的物理類比。
若將"筷子"縮至電子尺度——1個電子加1個電子是2個電子,這永遠成立。要做計算的時候,就可以直接通過物理定律來做計算——相較于28個晶體管,電子級類比在硬件資源開銷與能耗上均下降數(shù)個量級。
![]()
真正難啃的硬骨頭一直是"算不準"。團隊的破局思路有點像考試里的"先估算再精算"。每個存儲單元均為"1晶體管-1電阻(1T1R)"結(jié)構(gòu),可在八個導(dǎo)電態(tài)間切換,對應(yīng)3-bit分辨率。
通過"逐位切片"策略,將原始矩陣A分解為若干3-bit子矩陣,再分別映射至不同陣列中,從而實現(xiàn)多位精度的累積運算。
在算法層面,系統(tǒng)通過迭代更新殘差和增量,實現(xiàn)逐步逼近真實解的過程。每一輪迭代中,低精度求逆電路提供近似解,高精度乘法模塊計算殘差修正,從而不斷提升精度。
![]()
通俗講,第一遍先用粗糙地圖圈出大致方位,第二遍掏出高精度儀器鎖定坐標,第三遍把誤差摁到小數(shù)點后好幾位。
之所以能這么玩,關(guān)鍵在于核心器件用的是阻變存儲器,也叫RRAM。由阻變存儲器陣列驅(qū)動的模擬計算芯片,憑借物理定律直接進行高并行、低延時、低功耗運算的先天優(yōu)勢,重新進入研究視野。
這種器件國內(nèi)多家企業(yè)已經(jīng)具備量產(chǎn)基礎(chǔ),不需要在某個被封鎖的稀有材料或獨家工藝上死磕。換句話說,這條路的產(chǎn)業(yè)鏈根基扎實,不是空中樓閣。
![]()
值得專門點出的是,國內(nèi)外搞存算一體的團隊不少,但絕大多數(shù)還停留在"矩陣乘法"這一步,干的是AI推理的活。
國內(nèi)外許多團隊集中于研究矩陣乘法(AI推理的核心),而北大團隊的特色在于專注于更具挑戰(zhàn)性的矩陣方程求解(AI二階訓(xùn)練的核心)。難度差了一個量級,含金量也差了一個量級。
![]()
把芯片做出來只是上半場,能不能在產(chǎn)業(yè)里活下來才是真正的考題。這枚芯片瞄準的幾個方向,恰好都是當下最缺算力、最燒錢的賽道。
實驗?zāi)M了一個16×4的MIMO系統(tǒng),傳輸對象為"北京大學(xué)校徽"的100×100二值圖像,通過256-QAM調(diào)制編碼后發(fā)送,僅進行兩次迭代后,接收端恢復(fù)出的圖像已與原圖完全一致。能效高、延時低、還能扛大規(guī)模信道——這正是6G基帶處理器最迫切的需求清單。
![]()
第二個是AI大模型訓(xùn)練。當下大模型的胃口越來越大,光靠堆GPU已經(jīng)撐不住電費賬單。所謂二階訓(xùn)練方法早就被理論證明能讓模型收斂得又快又穩(wěn),可一直沒人敢用,因為單次計算量大到?jīng)]有任何數(shù)字芯片能扛。
矩陣求逆操作要求的計算精度極高,時間復(fù)雜度達到了立方級,而模擬計算憑借物理規(guī)律直接運算的方式,具有低功耗、低延遲、高能效、高并行的天然優(yōu)勢。這塊空白填上之后,整個AI訓(xùn)練范式都可能重寫。
![]()
第三個是科學(xué)計算和超算。氣象預(yù)報、流體仿真、量子化學(xué)、熱擴散分析,這些任務(wù)說到底都是在解大型的偏微分方程,最終都得歸到矩陣運算上。
模擬芯片在求解天氣預(yù)報和流體動力學(xué)中使用的偏微分方程等特定任務(wù)上,速度不僅超越英偉達H100,也超過了AMD Vega 20。對于天天為電費發(fā)愁的國家級超算中心來說,能效翻百倍意味著什么,不用算賬都能感受到分量。
![]()
研究團隊表示,未來對芯片電路的進一步改進還能繼續(xù)提升性能,他們的下一步目標是構(gòu)建更大規(guī)模、完全集成的芯片,以更快的速度處理更復(fù)雜的問題。
器件一致性、陣列良率、配套的編譯器和軟件生態(tài),每一項都不輕松。但好消息是,這些活兒都是中國半導(dǎo)體產(chǎn)業(yè)過去十年最熟悉的賽道。
![]()
把鏡頭拉遠一點看,這件事的意義早就超出了一顆芯片本身。西方的制裁邏輯建立在"路只有一條"的假設(shè)上——堵死EUV,就堵死中國高端芯片的未來。
技術(shù)封鎖這種東西,短期內(nèi)能添堵,長期看反而會逼出意想不到的創(chuàng)新路徑。光刻機依然重要,先進制程依然值得追,但那已經(jīng)不再是中國芯片產(chǎn)業(yè)唯一能走的路。
![]()
當世界還盯著7納米、5納米、3納米打轉(zhuǎn)的時候,中國研究者把目光抬高了一個維度——計算范式的革命,比制程數(shù)字的游戲,要刺激得多。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.