![]()
全球AI競賽的早已從“誰能搶到更多GPU”悄然轉向“誰能把GPU真正用起來”。然而,坐擁約55萬塊英偉達GPU,實際利用率僅有11%,這一“打臉”般的數字,正將埃隆·馬斯克(Elon Musk)旗下的人工智能公司xAI推上風口浪尖。
據外媒《The Information》獲取的xAI內部備忘錄顯示,xAI公司總裁邁克爾·尼科爾斯(Michael Nicolls)向團隊坦承,公司目前的模型浮點運算利用率(MFU)約為11%。這個數字意味著,理論上能輸出100份訓練算力的硬件,實際僅產出了11份。
xAI目前擁有約55萬顆NVIDIA GPU,其中包括H100和H200系列。盡管這些GPU比最新的Blackwell產品落后了一個世代,但xAI部署的GPU規模之大令市場印象深刻。
對于這一現狀,Michael Nicolls在內部備忘錄中給出了直白的評價:“低得尷尬”。他已為團隊設定了在未來幾個月內將利用率拉升至50% 的目標。
“11%”這個數字,并非指89%的GPU在完全閑置,而是衡量有效訓練吞吐占硬件理論峰值算力比例的嚴苛指標。
從行業基準來看,生產級大模型訓練的MFU通常落在35%至45%之間。Meta和谷歌憑借深厚的軟件堆棧積累,其GPU利用率分別可達約43%和46%。即便以“低效”著稱的GPT-3訓練時期,MFU也在21%-26%之間。相比之下,xAI的11%不僅遠低于當前主流水平,甚至低于AI算力發展史上的“古早”尷尬時期。
坐擁算力“金山”卻難有用武之地,癥結出在哪里?答案指向軟件堆棧與并行策略的滯后。
xAI在業內以“完全按照英偉達推薦方式部署GPU”的模范生做法著稱。模范生卻跑出低分,說明問題不在標準的硬件或網絡拓撲層面。根源在于,訓練棧、并行策略和模型工程等軟件優化速度,遠跟不上其激進的硬件擴張步伐。
業界廣泛討論的“存儲墻”現象成為主要瓶頸——HBM顯存讀取速度遠慢于計算芯片,導致芯片大量時間空轉等待數據;網絡拓撲中的任何一處瓶頸,在數萬張卡的同步要求下,都會被急劇放大。此外,Lambda等機構的分析指出,顯存壓力、過度的激活重計算和張量并行帶來的跨GPU通信開銷等,都是拖累MFU的系統性因素。
xAI的算力基礎設施建設速度本身就是一個“神話”:其孟菲斯Colossus超算集群從動工到投入運營僅用了122天,從10萬張GPU擴展到20萬張僅用了92天。黃仁勛曾評價此類工程“通常需要四年”。
![]()
△xAI孟菲斯Colossus超算集群
然而,驚人的速度似乎也讓xAI“欠下”了技術債。擴張越快,支撐大規模并行訓練的軟件系統復雜度就越大。當企業試圖將GPU規模從數千張推向數十萬張時,通信、調度、容錯和并行策略的挑戰會呈指數級增長。xAI的11%的算力利用率,正是這一矛盾的集中體現。
把問題完全歸咎于xAI一家也并不公平。《The Information》的報道援引一位匿名研究員的話稱:“跑過40%對xAI的大多數競爭對手來說也很難”。這表明,超大規模集群下的低效問題,是籠罩整個AI行業的陰影。
報道還揭示了一個行業內部的扭曲現象:由于擔心GPU被調走或承受壓力,一些研究員甚至通過反復重跑訓練來人為“美化”自家MFU數據。囤而不用的算力浪費,成為行業心照不宣的秘密。
面對效率困局,xAI正多措并舉。一方面,公司計劃通過基礎設施和軟件棧優化來解決利用率問題。另一方面,據媒體報道,xAI已開始將部分閑置算力對外出租,AI編程創業公司Cursor已計劃使用其“數萬張GPU”來訓練新模型。
AI算力之爭已過“裝備競賽”階段,正式進入“效率競賽”的深水區。11%的低利用率如同一面鏡子,照出AI行業下半場的核心命題:如何將“買得到”的硬件,轉化為真正“用得好”的競爭壁壘。
編輯:芯智訊-浪客劍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.