網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

100千瓦機柜功耗，風(fēng)冷30千瓦觸頂，浸沒液冷效率升25倍

2026-04-27 20:37:22　來源: 相思賦予誰a

四川舉報

分享至

電影《流浪地球2》中有一幕令人印象深刻：一排排根服務(wù)器浸沒在海水里，仿佛在“燒開水”。

觀眾不禁會問：這樣不會短路嗎？泡在水里還能正常工作？

實際上，這種讓服務(wù)器“泡水”的設(shè)定，如今已不再是科幻。現(xiàn)實中早已有成熟的技術(shù)方案——浸沒式液冷。

在甘肅慶陽的一個數(shù)據(jù)中心展廳里，我們親眼見到了這樣一組“泡在水里”的服務(wù)器。當(dāng)然，這里的“水”需要打上引號。它不是普通的水，而是一種特殊的冷卻液——電子氟化液。

這種液體無色、無味，且不導(dǎo)電。工作人員介紹，他們曾測算過，即便將一部手機丟進氟化液里浸泡10年，取出來之后依然可以正常使用。

傳統(tǒng)散熱的困境：風(fēng)扇的“天花板”

要理解液冷為何在當(dāng)前變得如此重要，首先需要回到一個最基本的物理問題：芯片產(chǎn)生的熱量，到底有多大？

十年前，一臺服務(wù)器中單顆CPU的功耗大約為幾十瓦，用一塊鋁制散熱片加一個小型風(fēng)扇就能輕松壓制。但如今，訓(xùn)練AI大模型所用的GPU，單卡功耗已飆升至700瓦，甚至超過1000瓦。當(dāng)一臺機柜中塞進數(shù)十張這樣的計算卡時，整柜功耗可以輕松突破30千瓦、50千瓦，并正向100千瓦邁進。

而在一個大型數(shù)據(jù)中心里，這樣的機柜往往成千上萬。

傳統(tǒng)的散熱方式是用風(fēng)扇將冷空氣吹入服務(wù)器帶走熱量，再通過中央空調(diào)對熱空氣進行冷卻。這套方案在數(shù)據(jù)中心領(lǐng)域統(tǒng)治多年，但它存在一個硬性的物理天花板。

空氣的比熱容低，導(dǎo)熱能力也差。當(dāng)單機柜功耗超過30千瓦，即便將風(fēng)扇轉(zhuǎn)速拉到極限、空調(diào)開到最大，熱量仍會在機柜內(nèi)部堆積，導(dǎo)致芯片因過熱而降頻，甚至觸發(fā)保護性宕機。

更棘手的是能耗問題。數(shù)據(jù)中心有一個核心指標(biāo)——PUE（電源使用效率），即數(shù)據(jù)中心總耗電量與IT設(shè)備本身耗電量的比值。理想狀態(tài)下PUE為1.0，意味著所有電力都用于計算。但在現(xiàn)實中，風(fēng)冷數(shù)據(jù)中心需要將大量電力用于空調(diào)和風(fēng)扇，PUE普遍在1.4到1.6之間，表現(xiàn)較好的能做到1.2左右。

全球數(shù)據(jù)中心每年消耗的電力已占人類總用電量的約2%。國際能源署預(yù)測，到2030年，這一比例將翻倍。如果繼續(xù)依靠風(fēng)冷來支撐未來的AI算力，我們或許不是在訓(xùn)練模型，而是在為整個電網(wǎng)的空調(diào)系統(tǒng)“打工”。

散熱，已經(jīng)從運維層面的問題，上升為制約算力發(fā)展的關(guān)鍵瓶頸之一。

液冷技術(shù)接棒：三種主流方案

當(dāng)風(fēng)冷技術(shù)觸及天花板，全球工程師的目光紛紛投向液冷技術(shù)。液冷并非單一技術(shù)，而是包含多種方案的技術(shù)譜系。當(dāng)前主流的實現(xiàn)方式主要分為三類。

第一類：冷板式液冷

這是目前最成熟的過渡方案。工程師在CPU、GPU等“發(fā)熱大戶”表面貼上一塊金屬冷板，內(nèi)部設(shè)有細(xì)密的液冷管道，冷卻液在管道中流動，通過金屬將熱量導(dǎo)出。

經(jīng)常玩游戲的讀者可能聽說過“水冷機箱”，其原理與此類似。

由于冷卻液不直接接觸芯片，安全性相對較高，改造成本也較低，因此許多傳統(tǒng)數(shù)據(jù)中心在向液冷過渡時，會優(yōu)先采用冷板方案。

但它的散熱效率存在上限——熱量傳遞需經(jīng)過一層金屬，且機柜中除CPU/GPU外，內(nèi)存、硬盤、電源等部件仍依賴風(fēng)冷散熱，容易造成“冷熱不均”的問題。

第二類：噴淋式液冷

這種方案更為激進。它通過噴頭將冷卻液直接噴灑在發(fā)熱元件表面，利用液體蒸發(fā)帶走熱量。相比冷板式，噴淋式的散熱效率更高，但系統(tǒng)結(jié)構(gòu)更加復(fù)雜。噴頭堵塞、液體分布不均等工程難題仍需攻克，目前應(yīng)用范圍相對較窄。

第三類：浸沒式液冷

這正是在慶陽數(shù)據(jù)中心所見的技術(shù)。它將整臺服務(wù)器乃至整臺機柜完全浸沒在特殊液體中，使液體與每一個電子元件直接接觸，通過熱傳導(dǎo)和熱對流帶走熱量。

這是當(dāng)前數(shù)據(jù)中心散熱效率的最優(yōu)形態(tài)：液體的導(dǎo)熱能力是空氣的25倍，單位體積液體能帶走的熱量更是空氣的近千倍，這使得浸沒式液冷的單機柜散熱能力達(dá)到風(fēng)冷的數(shù)倍甚至十幾倍。同時，浸沒式方案可以均勻帶走所有部件的熱量，沒有死角。由于不需要風(fēng)扇，整個系統(tǒng)幾乎是靜音運行，也徹底擺脫了灰塵的困擾。

技術(shù)路線的選擇并非“非此即彼”，而是根據(jù)不同功耗密度選取最優(yōu)方案。目前慶陽數(shù)據(jù)中心給出的參考是：30千瓦以下，風(fēng)冷依然夠用；30千瓦到50千瓦，冷板式是性價比最高的過渡方案；50千瓦以上，尤其是未來100千瓦級的超密集集群，浸沒式液冷將成為剛需。這三種方案將在未來長期共存，而非簡單的誰取代誰。

氟化液的優(yōu)勢與工程挑戰(zhàn)

回答了“為什么要采用浸沒式液冷”之后，接下來的核心問題是：如何安全地實現(xiàn)這一方案？

數(shù)據(jù)中心連接著互聯(lián)網(wǎng)、人工智能、智能駕駛等眾多關(guān)鍵領(lǐng)域。一旦芯片完全浸沒在液體中，只要該液體具備微弱的導(dǎo)電性、腐蝕性或揮發(fā)性，整個機房都可能報廢，相關(guān)服務(wù)將全面停擺，影響是毀滅性的。因此，無論采用何種散熱方式，安全始終是首要考量。

為了找到一種既能高效導(dǎo)熱、又能與電子設(shè)備“和平共處”的液體，工程師們已探索多年。

最初，人們嘗試使用礦物油或變壓器油進行散熱，即所謂的“油冷”。這類油品雖具有絕緣性，但黏度大、散熱效率低，長期使用后會氧化變質(zhì)，需要定期更換和清理，維護成本較高。后來的硅油性能有所改善，但仍停留在“能用”而非“好用”的階段。

目前行業(yè)較成熟的解決方案之一，是電子氟化液。

這種無色無味的人工合成有機化合物，從現(xiàn)有測試數(shù)據(jù)來看，具備三個突出特性：

第一，不導(dǎo)電。它的電阻率極高，即使服務(wù)器在通電狀態(tài)下完全浸泡其中，也不會發(fā)生短路。

第二，不腐蝕。服務(wù)器內(nèi)部材料極為復(fù)雜，包括銅電路、金觸點、銀焊點、鋁散熱片、塑料框架、橡膠密封圈等。氟化液必須對所有這些材料保持化學(xué)惰性。研發(fā)團隊為此經(jīng)歷了多次迭代：早期配方解決了金屬腐蝕問題，卻發(fā)現(xiàn)長期浸泡會導(dǎo)致塑料件微量溶脹；后續(xù)持續(xù)攻關(guān)時，又面臨高溫下?lián)]發(fā)損耗的挑戰(zhàn)。直到當(dāng)前這一代產(chǎn)品，廠家通過耐久性測試證實，設(shè)備在氟化液中浸泡10年后拆解，內(nèi)部元器件依然完好如初，相關(guān)特性也已通過工信部驗收。

第三，不揮發(fā)。氟化液的沸點在110攝氏度以上，而服務(wù)器正常工作溫度約七八十?dāng)z氏度。這意味著在常規(guī)運行中，液體幾乎沒有損耗，無需頻繁補充。

即便如此，氟化液仍面臨工程層面的重大挑戰(zhàn)。

首先是密封。整個槽體必須完全密閉，液體循環(huán)管道、電源線、網(wǎng)線、光纖的穿艙位置均需做特殊密封處理。一旦漏液，不僅會造成昂貴損失，還可能污染其他設(shè)備。

其次是維護。傳統(tǒng)服務(wù)器發(fā)生故障時，工程師打開機柜即可更換部件。而對于浸沒式液冷服務(wù)器，維護需要先排液、再操作，流程復(fù)雜得多。此外，并非所有硬件都適合液體環(huán)境，部分類型的硬盤、光模塊對液體敏感，需要重新設(shè)計。

最后是成本。電子氟化液本身價格不菲，再加上專用槽體、循環(huán)泵、熱交換器等配套設(shè)備，初期投入比風(fēng)冷系統(tǒng)高出約20%。不過從長遠(yuǎn)來看，節(jié)省的電費可以收回這部分成本——以中國移動慶陽數(shù)據(jù)中心的測算為例，使用其浸沒式方案，大約4年即可回本。但首次投入的高門檻確實勸退了不少企業(yè)。

為什么是現(xiàn)在？——三大驅(qū)動力

浸沒式液冷的概念并不新鮮，早在十幾年前就有實驗室在探索。那么，為什么直到最近才開始規(guī)模化落地？

驅(qū)動力一：GPU功耗曲線將風(fēng)冷逼至絕境。

英偉達(dá)最新的AI芯片，單卡功耗已突破1000瓦。若一個機柜塞滿64張或128張卡，整機柜功耗輕松超過50千瓦，甚至向100千瓦、130千瓦邁進。國產(chǎn)芯片也在快速迭代。風(fēng)冷在這種密度下已完全失效，冷板式液冷也開始力不從心。浸沒式液冷由此從“先進技術(shù)”變?yōu)椤拔ㄒ贿x擇”。

驅(qū)動力二：應(yīng)用場景的分化。

AI算力分為訓(xùn)練和推理兩大場景。訓(xùn)練大模型時，GPU需要持續(xù)滿負(fù)荷運行數(shù)周甚至數(shù)月，熱量輸出穩(wěn)定且巨大，此時浸沒式液冷的穩(wěn)定散熱和節(jié)能優(yōu)勢非常明顯。而推理任務(wù)不同，用戶調(diào)用AI時，算力需求是脈沖式的，負(fù)載忽高忽低，風(fēng)冷或冷板式在此類波動場景下反而更靈活、更經(jīng)濟。因此，未來的數(shù)據(jù)中心不會是“全場液冷”，而是采用混合架構(gòu)：訓(xùn)練集群用浸沒式液冷，推理集群用冷板式液冷或風(fēng)冷，根據(jù)業(yè)務(wù)特性動態(tài)配置。

驅(qū)動力三：國產(chǎn)算力的崛起。

過去，液冷主要配合英偉達(dá)GPU的生態(tài)。而如今，華為昇騰、海光、寒武紀(jì)、燧原等國產(chǎn)芯片已大規(guī)模部署。這些芯片的功耗特性和封裝形式與英偉達(dá)存在差異，對散熱方案提出了新要求。浸沒式液冷憑借“液體包裹一切”的通用性，反而成為適配多元芯片架構(gòu)的最優(yōu)解。這也是慶陽這類國產(chǎn)算力樞紐率先布局浸沒式液冷的重要原因。

液冷背后：一場算力與能源的博弈

聊完技術(shù)，我們最后談?wù)勥@件事的深層意義。

人類進入AI時代，上層是算法、模型與芯片的競爭，而底層則是能源的競爭。

訓(xùn)練一次GPT-4級別的大模型，耗電量相當(dāng)于3萬個家庭一年的用電量。全球數(shù)據(jù)中心的耗電量正以每年超過10%的速度增長。如果不改變散熱方式，未來我們可能面臨“算得起，但供不起電”的尷尬局面。

浸沒式液冷將PUE從1.2降低到1.07，看似只是0.13的微小改進，但放大到百萬千瓦級的算力集群，這意味著每年節(jié)省的電量相當(dāng)于一座小型水電站的發(fā)電量，甚至更多。在“雙碳”目標(biāo)和全球能源緊張的背景下，散熱效率就是能源效率，PUE就是碳排放。

在中國移動慶陽智算中心，浸沒式液冷已經(jīng)從展廳測試走向機房部署。這里全年較低的氣溫、每度3毛8的綠電，以及正在建設(shè)的液冷集群，共同構(gòu)成了目前國內(nèi)最接近規(guī)模化落地的現(xiàn)實樣本。

但液冷不是終點。當(dāng)單機柜功耗向100千瓦、200千瓦繼續(xù)攀升，今天的氟化液也會遇到新的瓶頸。下一代散熱技術(shù)會是什么？相變材料？超導(dǎo)熱管？還是直接把數(shù)據(jù)中心建到深海或極地？

沒有人知道確切答案。但可以確定的是，只要人類仍在追求更強的算力，散熱技術(shù)的進化就不會停止。因為物理定律從不妥協(xié)，工程師能做的，只是在極限邊緣，尋找那0.1的優(yōu)化空間。

聲明：個人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.