網易首頁 > 網易號 > 正文申請入駐

xAI坐擁55萬張GPU加速卡，但算力利用率僅11%

2026-05-06 10:14:28　來源: 芯智訊

廣東舉報

分享至

全球AI競賽的早已從“誰能搶到更多GPU”悄然轉向“誰能把GPU真正用起來”。然而，坐擁約55萬塊英偉達GPU，實際利用率僅有11%，這一“打臉”般的數字，正將埃隆·馬斯克（Elon Musk）旗下的人工智能公司xAI推上風口浪尖。

據外媒《The Information》獲取的xAI內部備忘錄顯示，xAI公司總裁邁克爾·尼科爾斯（Michael Nicolls）向團隊坦承，公司目前的模型浮點運算利用率（MFU）約為11%。這個數字意味著，理論上能輸出100份訓練算力的硬件，實際僅產出了11份。

xAI目前擁有約55萬顆NVIDIA GPU，其中包括H100和H200系列。盡管這些GPU比最新的Blackwell產品落后了一個世代，但xAI部署的GPU規模之大令市場印象深刻。

對于這一現狀，Michael Nicolls在內部備忘錄中給出了直白的評價：“低得尷尬”。他已為團隊設定了在未來幾個月內將利用率拉升至50% 的目標。

“11%”這個數字，并非指89%的GPU在完全閑置，而是衡量有效訓練吞吐占硬件理論峰值算力比例的嚴苛指標。

從行業基準來看，生產級大模型訓練的MFU通常落在35%至45%之間。Meta和谷歌憑借深厚的軟件堆棧積累，其GPU利用率分別可達約43%和46%。即便以“低效”著稱的GPT-3訓練時期，MFU也在21%-26%之間。相比之下，xAI的11%不僅遠低于當前主流水平，甚至低于AI算力發展史上的“古早”尷尬時期。

坐擁算力“金山”卻難有用武之地，癥結出在哪里？答案指向軟件堆棧與并行策略的滯后。

xAI在業內以“完全按照英偉達推薦方式部署GPU”的模范生做法著稱。模范生卻跑出低分，說明問題不在標準的硬件或網絡拓撲層面。根源在于，訓練棧、并行策略和模型工程等軟件優化速度，遠跟不上其激進的硬件擴張步伐。

業界廣泛討論的“存儲墻”現象成為主要瓶頸——HBM顯存讀取速度遠慢于計算芯片，導致芯片大量時間空轉等待數據；網絡拓撲中的任何一處瓶頸，在數萬張卡的同步要求下，都會被急劇放大。此外，Lambda等機構的分析指出，顯存壓力、過度的激活重計算和張量并行帶來的跨GPU通信開銷等，都是拖累MFU的系統性因素。

xAI的算力基礎設施建設速度本身就是一個“神話”：其孟菲斯Colossus超算集群從動工到投入運營僅用了122天，從10萬張GPU擴展到20萬張僅用了92天。黃仁勛曾評價此類工程“通常需要四年”。

△xAI孟菲斯Colossus超算集群

然而，驚人的速度似乎也讓xAI“欠下”了技術債。擴張越快，支撐大規模并行訓練的軟件系統復雜度就越大。當企業試圖將GPU規模從數千張推向數十萬張時，通信、調度、容錯和并行策略的挑戰會呈指數級增長。xAI的11%的算力利用率，正是這一矛盾的集中體現。

把問題完全歸咎于xAI一家也并不公平。《The Information》的報道援引一位匿名研究員的話稱：“跑過40%對xAI的大多數競爭對手來說也很難”。這表明，超大規模集群下的低效問題，是籠罩整個AI行業的陰影。

報道還揭示了一個行業內部的扭曲現象：由于擔心GPU被調走或承受壓力，一些研究員甚至通過反復重跑訓練來人為“美化”自家MFU數據。囤而不用的算力浪費，成為行業心照不宣的秘密。

面對效率困局，xAI正多措并舉。一方面，公司計劃通過基礎設施和軟件棧優化來解決利用率問題。另一方面，據媒體報道，xAI已開始將部分閑置算力對外出租，AI編程創業公司Cursor已計劃使用其“數萬張GPU”來訓練新模型。

AI算力之爭已過“裝備競賽”階段，正式進入“效率競賽”的深水區。11%的低利用率如同一面鏡子，照出AI行業下半場的核心命題：如何將“買得到”的硬件，轉化為真正“用得好”的競爭壁壘。

編輯：芯智訊-浪客劍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.