當電子芯片逼近摩爾定律的物理極限,人工智能(AI)算力需求的指數級增長,正使傳統計算架構面臨“功耗墻”與“內存墻”的雙重瓶頸。光子——這個曾被限制在通信領域的信使,如今正以計算“主角”的身份登上舞臺中央。
繼國內首家光電混合計算芯片廠商曦智科技成功登陸港交所之后,全球光電混合計算領域又迎來了一位重磅玩家——每刻深思(MakeSens)。
每刻深思與曦智科技雖同聚焦于光計算領域,但技術路線截然不同。曦智科技走的是集成光子計算路線,而每刻深思選擇的是3D空間光學計算路線,也是目前國內唯一基于該技術路線的廠商,直接對標比爾·蓋茨與微軟投資的空間光學計算芯片廠商Neurophos。
近日,每刻深思核心團隊——創始人兼CEO鄒天琦、首席科學家喬飛、首席技術官劉哲宇接受了芯智訊專訪,首次對外介紹了公司在空間光學計算領域的布局,以及即將推出的基于該技術的大算力、高能效的全模擬光電計算芯片。
AI時代,電芯片正面臨巨大挑戰
過去半個多世紀,電子芯片計算能力的提升主要依賴三條路徑:制程微縮、架構創新和封裝集成。但如今,這三條路幾乎同時逼近極限。
首先,晶體管的尺寸已經越來越接近物理極限,繼續縮小不僅所能帶來的性能提升或功耗降低收益越來少,而且漏電、發熱等問題愈發嚴重,成本更是急劇攀升。根據供應鏈消息顯示,芯片設計廠商打造2nm芯片,從開案到產出的總成本將高達7.25億美元,而臺積電2nm晶圓代工價格也將高達3萬美元,接下來的埃米級制程(比如A16制程)代工價格或將高達4.5萬美元。
其次,當前電子芯片的都還是基于馮·諾依曼架構,計算單元和存儲單元是分開的,數據需要在兩者之間來回搬運。特別是對于AI計算來說,超過80%的能耗和時間都浪費在了數據搬運過程中,這也正是“內存墻”的由來。
第三,電子芯片的性能提升,本質上還是依賴于輸入的電力功率的提升。隨著AI對于算力需求的飆升,以英偉達GPU為代表的電子芯片功率也在快速提升(比如H200功率為700W,Vera Robin的功率就已經高達2300W),帶動整個AI系統對于電力的需求暴漲。據預測,到2028年僅美國數據中心的電力消耗就可能占全國總電力的12%,是目前的3倍。
而且,電子只要在導體中運動就會產生電阻,而越高的功率就意味著會帶來越多的熱量,如果散熱問題解決的不好,芯片乃至整個系統就將無法正常工作,這就是“功耗墻”。
原本電子芯片是依賴于晶體管微縮技術來實現性能的提升和功耗的降低,但是隨著晶體管微縮逼近物理極限,功耗墻問題將愈發凸顯。這也是為什么很多基于英偉達GPU的AI系統已經開始采用了液冷系統來進行散熱。而增加散熱系統又會帶來額外的電力能源需求。
顯然,在AI算力需求持續增長之下,傳統電芯片這種依賴于電力功率持續提升來提升性能所導致的功耗曲線是不可持續的。這種供需之間的巨大落差,也正是光子計算被推到舞臺中央的根本原因。
光子計算的破局:三大天然優勢
光子計算就是利用光子替代電子,用于某些計算任務,尤其是適合于矩陣乘法計算,而這正是AI工作負載的核心工作。
光與電子遵循完全不同的物理規律。電子帶電,相互之間會產生干擾,在導體中運動會遇到阻力、產生熱量;而光子不帶電、無質量,以光速傳播,彼此之間幾乎不發生相互作用,傳播過程中也不會產生熱量。這些基本物理特性,賦予了光子計算三個電子無法比擬的優勢:
第一,天然的高速并行能力。光本身就具有波長、相位、振幅、偏振等多個物理維度,這意味著單束光可以同時攜帶多路信息。
第二,極低的能耗。 由于光子傳播過程中幾乎不產生熱量,光計算系統的能耗主要來自光電轉換環節,而非計算本身。
第三,超低的延遲。 光在芯片中的傳播速度是納秒級的,而當矩陣向量乘法在光場中完成時,整個運算可以在一個物理周期內結束,無需像數字脈動陣列那樣需要數百個周期。
基于光子計算這三個獨特的優勢,這讓低成本、低功耗、高帶寬的AI計算成為可能。
光子計算是一種被動運算,運算任務在光通過光子矩陣的過程中即可完成,它顛覆了傳統CMOS電子芯片的運算邏輯。光子芯片的性能提升與光子矩陣規模、主頻速率和波長數量等參數相關,而不依賴晶體管的密度及芯片制程的提升,并且擁有高通量、低延時、低功耗等特點,因此用光計算來代替部分當前的電計算就成為了突破現有瓶頸的有效途徑。
每刻深思創始人兼CEO鄒天琦指出:“特別是在美國對中國進行半導體技術封鎖,國內先進制程發展受限的背景之下,依托于國內在光通信等領域的技術領先優勢和供應鏈優勢,光計算正成為中國廠商打破美國對華AI算力封鎖的全新路徑。這也是每刻深思近年來持續深光計算領域一大關鍵原因。”
技術路線分野:集成光學 vs 空間光學
目前光子計算這個領域已經分化出兩條截然不同的技術路線:集成光子計算和空間光學計算。
集成光子計算是將光束限制在二維平面的波導內(蝕刻在硅或其他材料上的狹窄通道),并將調制器、探測器、波導等光子器件集成在硅基芯片上,實現了類似傳統集成電路的緊湊、芯片級設計。這種方法與現有半導體制造業實現了良好的集成。前面提到的曦智科技走的就是集成光子計算路線。
但是,集成光子計算過程中也會面臨固有限制:光在波導中傳播時,光學損耗會累積,密集元件間的熱串擾降低性能,并且其芯片布局的二維特性也限制了可實現的并行程度。
![]()
空間光學計算則是利用了光可以在三維空間中傳播的特性,在三個空間維度上對光同時進行分束、調制和重組,一次傳輸就能完成在電子系統或集成光子系統中需要數千個順序步驟才能完成的矩陣運算,而且幾乎零能耗。如果同時利用數百萬條光束進行并行計算,隨著系統規模擴大,計算速度呈二次方增長。
正是空間光學計算這種“同時進行”的能力,讓光計算在處理大規模并行任務時擁有先天優勢,并且還消除了集成光子學的損耗和串擾問題。每刻深思則選擇的正是空間光學計算路線。
![]()
△Lumai公司的空間光學計算方案
但是,傳統空間光學計算系統,比如總部位于英國牛津的Lumai公司的方案,主要依賴體積龐大的光學元件——透鏡、分束器、空間光調制器等,這些元件的尺寸通常在毫米到厘米級別,導致整個系統難以小型化。
為了解決傳統空間光學計算系統所面臨的小型化難題,作為國內空間光學技術領域的開拓者,每刻深思則利用超表面技術將龐大的光學透鏡集成到幾十納米厚的薄膜上,并完全兼容現有的CMOS半導體晶圓制造工藝,再結合MicroLED光源,使得整個空間光學計算系統的向芯片化、薄膜化方向演進。
![]()
△每刻深思的空間光學計算方案示意圖
“空間光學計算正在前沿爆發期,即將迎來從‘實驗室光學平臺’走向‘片上協處理器’的商業化跨越。特別是依托于中國成熟的光器件產業鏈,空間光學計算也將成為最具備產品化、商業化能力的光計算技術路徑。”每刻深思創始人兼CEO鄒天琦說道。
光電融合:商業化落地的必然選擇
雖然空間光學計算前景廣闊,但是這并不意味著其能夠完全替代電子計算,其依然需要電子計算部分來組成一個計算系統。
首先,精度是光子計算的一個軟肋。 電子計算是數字的、確定的——一個晶體管要么開要么關,計算結果是精確的。而光計算本質上是模擬的,光強、相位等物理量的連續變化會受到噪聲、溫度波動、元件錯位等因素的干擾。因此,在需要高精度數值計算的任務(如金融建模、科學仿真)中,光子計算短期內無法替代電子計算。
其次,邏輯控制也不是光的強項。 光子的相互作用很弱——這在傳輸中是優勢,但在需要復雜邏輯判斷時就成了劣勢。電子可以通過晶體管實現“與或非”等邏輯門,從而構建任意復雜的控制流;而光子很難實現類似的可編程邏輯控制。這也是為什么所有光計算方案都采用“光電混合”架構——光負責大規模并行矩陣運算,電負責控制、邏輯和存儲。
每刻深思首席科學家喬飛強調,空間光學計算的商業化路徑是“光電融合”,而非“全光取代”。 在AI工作負載中,矩陣向量乘法可能占到80%—90%的計算周期,這正是光計算可以高效處理的部分;而非線性激活、歸一化、數據格式化和系統編排等任務,則仍由電子芯片完成。這種混合架構中,光計算扮演的是加速協處理器的角色——通過PCIe插槽與現有計算系統集成,在不顛覆現有軟件棧的前提下,提供數量級的性能提升。
全模擬光電計算芯片:能效比飆升
在光電融合計算架構的前提下,每刻深思并沒有采用集成光子計算那樣的光學+數字電路的架構,而是采用了空間光學計算+模擬電路的融合架構,其核心優勢在于消除了數據轉換的瓶頸,帶來了系統延遲、能效和計算瓶頸三個維度上的巨大的提升。
鄒天琦指出,光計算本質上就是模擬計算,其利用光的衍射和干涉特性,在物理層面完成矩陣乘法等核心運算,實現了存算一體化,計算在數據傳輸的同時就已發生,從根本上繞開了“內存墻”。而“光學+模擬”方案通過存算一體和全模擬處理,使得整個計算過程無需將模擬信號轉換為數字信號,同時避免了頻繁的數據轉換與存儲訪問,可以實現極低的延遲和極高的能效。
相比之下,“光學+數字”方案需要頻繁使用高功耗、高延遲的模數轉換器(ADC) 進行信號轉換,每次轉換都會引入額外延遲,并成為系統速度提升的瓶頸。同時,“光學+數字”方案需要數據在光、電、數字之間反復轉換,面臨來自高速ADC、高帶寬內存訪問(即“內存墻”問題)和數字邏輯運算帶來的功耗顯著增加的問題。
據每刻深思首席科學家喬飛介紹,基于空間光學計算+模擬電路的融合架構,每刻深思即將推出的全模擬光電智能計算芯片(ACCEL)突破了傳統數字芯片的算力瓶頸,性能相比先進的GPU提升了3-4個數量級;延遲方面也降低了2個數量級至納秒級;帶寬也有10倍的提升;能效比更是提升了4個數量級。
具體來說,與集成光學計算芯片相比,每刻深思的ACCEL由于采用的是空間光計算,是過微納結構進行計算,集成度高,可做多層計算,計算規模也遠大于一維的集成光子計算,目前最高可以做到“400×400×2矩陣”(遠高于集成光學計算方案的曦智科技的PACE2的“128×128矩陣”),光學計算性能最高可達4550TOPS(FP8),超過了英偉達H200;光學計算能效比最高可達7.45×10? TOPS/W,相比H200提升了4個數量級,這幾項項指標均居于全球領先地位。
![]()
“我們采取的差異化的競爭策略,首款ACCEL芯片在保證足夠高的性能前提下,側重點還是聚焦于高能效。雖然當前AI算力需求正在爆發式增長,但對于云廠商而言,如何提高投入產出比則更具實際效應。”喬飛坦言,作為光計算領域的新入局者,每刻深思選擇“高能效”這一差異化標簽,既能避開與英偉達在峰值算力上的正面競爭,又能精準切入對功耗敏感的大規模推理場景——這正是當前AI部署中最迫切需要解決的問題,也是客戶愿意嘗試新方案的突破口。
更為關鍵的是,每刻深思的ACCEL由于是全模擬光電計算架構,其模擬電路并不依賴于高端制程,采用的是成熟的22nm制程工藝,可直接在國內制造。光學器件和結構工藝也比較成熟,供應鏈可復用國內國內成熟且具優勢的光通信和顯示行業的資源。所以,ACCEL具備大規模量產的條件,不僅可以將成本降至英偉達H200的1/10,而且供應鏈也可以做到完全的國產化。
值得一提的是,每刻深思的ACCEL還拿到了國家重點研發計劃顛覆性項目,獲得了國家科技重大專項的支持。
技術溯源:清華大學十余年積累
那么,作為一家成立于2020年初創企業,為什么每刻深思能夠能如此迅速地在光計算領域脫穎而出呢?
據每刻深思創始人兼CEO鄒天琦介紹,每刻深思的ACCEL技術來源于清華大學自動化系戴瓊海院士的研究團隊于2023年發表于《自然》雜志的關于全新光電模擬計算芯片的研究成果轉化。這項研究,提供光模擬計算和模擬電計算深度融合的可行性方案。每刻深思的首席科學家喬飛也正是該研究團隊的核心成員,主導了其中光電接口和模擬電計算。
2024年,每刻深思又與清華大學電子系黃翊東教授團隊馮雪副教授合作,在超表面光場調控的研究取得新進展,打通光電環路,解決了未來在系統中部署大規模算法和大模型的能力問題,為工程化應用奠定基礎。
“我們的核心研發團隊都是來自清華大學電子系,并且從2012年開始就在進行模擬計算方向的研發,當時名為清華大學電子系智能感知集成電路與系統實驗室(Sense Lab),也是全球最早開始研發模擬計算方向的團隊之一。每刻深思的核心技術也正是源自于喬飛教授20余年的研究成果。”鄒天琦說道。
由于模擬電路不同于數字芯片,其無法通過仿真和FPGA驗證來實現,只能通過不斷的流片和測試進行迭代,最終達到預期的效果,所以非常吃經驗。鄒天琦透露,每刻深思的核心研發團隊都擁有著極為豐富的模擬計算芯片的研發與工程化量產經驗。
這也是為什么每刻深思在2020年成立之后,就持續聚焦于模擬計算芯片的設計與開發,并很快就推出了MKS系列“模擬感存算一體”智能芯片,利用模擬計算的高能效大幅降低了持續感知計算下的高功耗難題。
得益于每刻深思研發團隊豐富的模擬計算芯片研發和量產經驗,以及與清華大學在光電模擬計算芯片方面的深度合作,才有了每刻深思即將推出的這款大算力的ACCEL芯片的產品化。
根據規劃,每刻深思將于今年三季度正式發布大算力ACCEL產品,這也將是國內首個全模擬光電智能計算芯片,目標是能夠滿足千億級參數的大模型推理需求。
規模化量產與商業化挑戰
雖然每刻深思的ACCEL有著很多的優勢,但是要走向規模化和商業化,也面臨著精度、靈活性、規模化、軟件生態等諸多方面的挑戰。
每刻深思首席技術官劉哲宇告訴芯智訊,目前ACCEL的計算精度雖然只能做到8bit左右,但是已經足以滿足大多數的大模型推理需求。如果要進一步提高精度,則需要通過軟硬件的升級,工藝的迭代來逐步實現。
在靈活性方面,ACCEL方案采用的是專用化路線,一旦系統固定,難以重新配置執行不同任務,所以缺乏靈活性。雖然主動或混合集成方案可提升可重構性,但這往往以犧牲能效為代價。
在大規模芯片集成方面,光學計算系統還將面臨光路對準與穩定性、器件一致性等影響計算精度和封裝良率的問題。因為,其核心器件Micro LED、超表面、電芯片的對準封裝難度較大,所以成本也相對比較高。
“依托于現有的供應鏈,我們的電芯片良率可以達到99.3%,封裝良率可以達到94.7%,所以這部分的綜合良率現在可以達到90%以上。2027年,我們會自建一條中試線,這個中試線就是要解決超表面良率、光電融合先進封裝等問題,為大規模量產和成本優化做準備。”劉哲宇透露:“未來,我們會通過中試的方式,把整個工藝去固化,再給到合作的大廠,推動良率的進一步的提升,實現大規模量產和成本的進一步降低。”
在軟件生態方面,相比發展了數十年的電子計算的軟件生態,光計算的軟件生態相對匱乏。不過,在鄒天琦看來,對于客戶而言,將現有AI模型遷移到光學計算芯片上的學習成本和遷移成本是可控的,客戶可以做到“無感”使用。更重要的是,大模型時代的到來反而降低了新架構芯片構建軟件生態的難度。
“我們會提供完整的編譯工具鏈和統一接口,客戶無需了解底層光學計算硬件的物理特性,就能夠像使用普通AI加速卡一樣使用我們的產品。特別是隨著大模型的興起,催生了大量開源編譯器框架(如MLIR、TVM)和自動并行策略,新架構芯片的軟件適配難度較過去也顯著下降。”鄒天琦對芯智訊解釋道。
當前頭部的云廠商是AI加速器的主要客戶,他們在這方面的資本支出也是相當的龐大,面對英偉達GPU的成本和能耗持續攀升,也迫使他們不得不紛紛開始自研或引入第三方的專用AI ASIC加速器,以降低成本、提升能效。
因此,在每刻深思的ACCEL芯片商業化策略方面,鄒天琦透露,初期將會聚焦于頭部的2-3家客戶,目前也正在積極溝通當中,在形成階段性成果后,才會進行規模化復用。
結語
每刻深思的全模擬光電智能計算芯片,代表了光計算領域一條獨特且極具潛力的技術路線。與集成光子路線相比,空間光學計算在并行度、能效比和算力擴展方面展現出先天優勢,特別是其“光學+模擬”融合架構進一步消除了模數轉換瓶頸,將能效和延遲優化推向了新的量級。
雖然,這項技術要從實驗室走向大規模商業化,仍需跨越精度、靈活性、封裝良率和軟件生態等多重障礙。但是,每刻深思已有了跨越這些障礙的應對之策。
在AI算力需求持續爆炸、摩爾定律放緩、國產先進制程受限的背景下,光計算——正成為打破算力瓶頸的一條突圍路徑。每刻深思能否憑借其清華背景的技術積累和差異化的產品定位,在英偉達、Neurophos、曦智科技等國內外玩家的夾擊中脫穎而出,我們拭目以待。
作者:芯智訊-浪客劍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.