人工智能推理市場正在經歷一場深刻的范式轉變——速度,而非智能,正成為開發者愿意為之付費的核心變量。這一偏好的逆轉,將長期處于邊緣地位的芯片公司Cerebras推向了聚光燈下,也讓OpenAI斥資數百億美元押注一家即將上市的晶圓級芯片制造商。
據行業研究機構SemiAnalysis的深度報告,OpenAI已與Cerebras簽署總規模高達750兆瓦算力的主協議,潛在擴展至2吉瓦,對應剩余履約義務達246億美元。
這筆交易的核心邏輯在于:OpenAI旗下GPT-5.3-Codex-Spark模型在Cerebras硬件上可實現每用戶每秒2000個token的生成速度,遠超基于HBM的GPU集群所能提供的交互體驗。與此同時,Cerebras正站在IPO的門檻上,其命運已與OpenAI深度綁定。
這場速度革命的市場信號已相當清晰。SemiAnalysis披露,其團隊80%的AI支出(年化峰值達1000萬美元)集中在Anthropic的Opus 4.6快速模式上——該模式以6倍溢價換取2.5倍交互速度。更具說服力的是,當Opus 4.7發布時,團隊中多名工程師拒絕升級,原因僅僅是新版本不支持快速模式。這是SemiAnalysis團隊首次主動放棄前沿智能,轉而選擇更快的token生成速度。
![]()
速度溢價:開發者用錢包投票
推理市場的競爭格局正在沿著一條新的軸線重新劃分。
正如英偉達CEO Jensen Huang在今年GTC大會上反復強調的,吞吐量(每GPU每秒token數)與交互性(每用戶每秒token數)是推理的根本性權衡——前者服務于批量處理,后者決定用戶體驗。SemiAnalysis將其比喻為"公共汽車與法拉利"的選擇:你可以慢速服務大量用戶,也可以快速服務單個用戶。
![]()
市場的偏好已通過消費行為得到驗證。Opus 4.6快速模式以6倍價格換取約2.5倍的交互速度,一度成為Anthropic利潤率最高的產品SKU,也是其今年ARR爆發式增長的重要驅動力。然而,SemiAnalysis與OpenRouter合作收集的數據顯示,該模式近期已出現性能退化——標準Opus 4.6的交互速度穩定在約40 tps,快速模式曾超過100 tps,但近期已降至約70 tps,實際加速比從2.5倍縮水至約1.75倍。
OpenAI和Anthropic均已意識到這一需求分層,并通過快速模式、優先模式、批量定價等多種產品形態,試圖覆蓋整個市場并尋找利潤最大化的組合點。
晶圓級芯片:一場豪賭的技術邏輯
Cerebras的核心賭注,是突破光刻機單次曝光的物理極限,將整張晶圓做成一塊芯片。
其第三代產品WSE-3基于臺積電N5工藝制造,在一張晶圓上集成了44GB SRAM,提供21PB/s的內存帶寬——比HBM高出數千倍。這一架構的本質是:用極高的內存帶寬換取極低的訪存延遲,使得在小批量、低算術強度的解碼場景下,WSE-3能夠充分發揮其理論算力,而基于HBM的GPU在同等場景下往往處于"算力饑渴"狀態。
然而,這一架構也帶來了顯著的計算密度代價。SemiAnalysis指出,WSE-3的稠密FP16算力實際僅為15.625 PFLOPS——這與Cerebras官方宣傳的125 PFLOPS相差8倍,差距源于其采用了8:1非結構化稀疏假設,SemiAnalysis將此稱為"Feldman公式",并將其與英偉達的"Jensen數學"相提并論,但認為前者走得更遠。
在系統成本方面,SemiAnalysis估算每臺CS-3服務器的物料成本(含KVSS CPU節點)約為45萬美元,遠高于其硅片本身約2萬美元的臺積電晶圓成本。高昂的定制化電源模塊(來自Vicor)、液冷系統以及每批次晶圓所需的定制掩膜版,共同推高了整體成本結構。
![]()
架構短板:網絡帶寬的幾何困境
WSE-3最顯著的弱點,是極為有限的片外帶寬。
每塊WSE-3僅提供150GB/s(1.2Tb/s)的片外帶寬,僅為英偉達Blackwell NVLink5單GPU 900GB/s規模擴展帶寬的六分之一。這一限制并非設計疏忽,而是晶圓級架構的內在約束——SemiAnalysis將其稱為"島嶼問題"。
問題的根源在于晶圓的均勻步進曝光機制。WSE-3由84個相同的曝光單元(die)拼接而成,每個曝光單元必須完全相同,以確保跨die的片上2D網格互聯正常工作。這意味著無法將SerDes PHY集中部署在晶圓邊緣——若要增加I/O帶寬,就必須在每個曝光單元中都預留PHY面積,而位于晶圓內部的PHY無法連接外部,形成大量"擱淺硅"。此外,PHY模塊還會在片上網格中形成"空洞",增加數據路由延遲,削弱晶圓級架構的核心優勢。
這一帶寬瓶頸直接限制了Cerebras服務大模型的能力。對于參數量超過1萬億、上下文窗口達到百萬token級別的現代智能體工作負載,Cerebras不得不采用流水線并行策略,將模型按層切分到多塊晶圓上,僅在晶圓間傳輸激活值。但隨著模型規模擴大,所需晶圓數量線性增加,每次晶圓間傳輸的固定延遲也隨之累積,最終侵蝕速度優勢。
SRAM擴展已死:路線圖的隱憂
Cerebras面臨的另一個結構性挑戰,是SRAM密度擴展的物理極限。
從WSE-1(臺積電16nm,18GB SRAM)到WSE-2(7nm,40GB),SRAM容量實現了2.2倍的代際提升。但WSE-3從7nm升級至5nm,SRAM容量僅從40GB增至44GB,增幅僅10%,而邏輯晶體管數量增長了約50%。SemiAnalysis的數據顯示,在5nm之后,臺積電N3E相對N5的SRAM單元面積幾乎沒有縮減,N2及后續節點亦然——SRAM擴展實際上已經停滯。
![]()
這意味著Cerebras未來提升SRAM容量的唯一路徑,是在固定晶圓面積內犧牲計算面積換取存儲面積,形成嚴格的零和權衡。下一代CS-4系統將沿用基于N5的WSE-3,僅通過提升功耗來提高時鐘頻率和算力,SRAM容量維持不變。
相比之下,英偉達收購Groq后,可通過混合鍵合技術在Z軸方向疊加SRAM芯片(即LP40路線圖),繞開平面擴展的限制。Cerebras也在探索類似路徑——將DRAM晶圓或光子互聯晶圓通過混合鍵合疊加在WSE上,但SemiAnalysis對其技術可行性和時間表持審慎態度,認為晶圓級混合鍵合面臨的熱機械應力和鍵合波挑戰遠比常規芯片復雜。
OpenAI交易:單一客戶的雙刃劍
Cerebras與OpenAI的關系,已遠超普通供應商與客戶的范疇。
根據SemiAnalysis援引的S-1文件,雙方于2025年12月簽署主關系協議(MRA),OpenAI承諾在2026至2028年間分批采購750兆瓦AI推理算力,每批次合同期3至4年,可延長至5年,并持有額外采購1.25吉瓦的選擇權。截至2025年12月31日,Cerebras剩余履約義務達246億美元。
![]()
資本結構上,OpenAI同時扮演三重角色:向Cerebras提供10億美元有擔保營運資金貸款(年利率6%,若以算力交付方式償還則豁免利息);持有3344.5萬股N類(無投票權)普通股認股權證,行權價格接近于零;并在完全稀釋基礎上可能持有Cerebras約12%的股份。若MRA因OpenAI以外的原因終止,Cerebras須立即償還全部貸款余額及應計利息,且OpenAI有權直接控制托管賬戶資金的使用。
這一結構意味著Cerebras的增長前景與單一客戶高度綁定。SemiAnalysis預計,Cerebras未來數年收入將出現明顯拐點,OpenAI是主要增長驅動力,但執行風險同樣集中——在2028年前,Cerebras需要交付的服務器數量將比其歷史累計出貨量高出一個數量級,而數據中心容量的落地進度是最大的不確定性。
速度換智能:這筆交易值多少錢
OpenAI在Cerebras上運行的旗艦產品GPT-5.3-Codex-Spark,并非真正的GPT-5.3-Codex,而是基于gpt-oss-120B架構、經GPT-5.3-Codex蒸餾訓練的小型模型,參數量比原版小逾10倍。
SemiAnalysis對此直言不諱:Cerebras的芯片在經濟上目前只能高效服務相對較小的模型。對于參數量超過1萬億、上下文窗口達到100萬token的現代智能體工作負載,OpenAI若要在Cerebras上運行,需要接受顯著的成本溢價,且預計實際交互速度將低于每秒1000個token。
然而,這一判斷背后存在一個關鍵變量:算法進步的速度。SemiAnalysis認為,距離120B參數模型達到GPT-5.5級別的智能,可能不到一年時間。屆時,"以前沿智能換極速token"的價值主張將發生質變——正如今天工程師們寧愿放棄Opus 4.7的更高智能,也要堅守Opus 4.6快速模式的交互體驗。
750兆瓦的初始承諾已經鎖定。真正的問題是:當120B模型的智能追上今天的前沿水平,OpenAI是否會選擇將選擇權轉化為實際采購,將協議規模擴展至2吉瓦乃至更多。這一答案,將決定Cerebras的IPO估值能否兌現,也將定義下一階段推理戰爭的勝負手。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.