電影《流浪地球2》中有一幕令人印象深刻:一排排根服務(wù)器浸沒在海水里,仿佛在“燒開水”。
觀眾不禁會問:這樣不會短路嗎?泡在水里還能正常工作?
實際上,這種讓服務(wù)器“泡水”的設(shè)定,如今已不再是科幻。現(xiàn)實中早已有成熟的技術(shù)方案——浸沒式液冷。
![]()
在甘肅慶陽的一個數(shù)據(jù)中心展廳里,我們親眼見到了這樣一組“泡在水里”的服務(wù)器。當(dāng)然,這里的“水”需要打上引號。它不是普通的水,而是一種特殊的冷卻液——電子氟化液。
這種液體無色、無味,且不導(dǎo)電。工作人員介紹,他們曾測算過,即便將一部手機丟進氟化液里浸泡10年,取出來之后依然可以正常使用。
![]()
傳統(tǒng)散熱的困境:風(fēng)扇的“天花板”
要理解液冷為何在當(dāng)前變得如此重要,首先需要回到一個最基本的物理問題:芯片產(chǎn)生的熱量,到底有多大?
十年前,一臺服務(wù)器中單顆CPU的功耗大約為幾十瓦,用一塊鋁制散熱片加一個小型風(fēng)扇就能輕松壓制。但如今,訓(xùn)練AI大模型所用的GPU,單卡功耗已飆升至700瓦,甚至超過1000瓦。當(dāng)一臺機柜中塞進數(shù)十張這樣的計算卡時,整柜功耗可以輕松突破30千瓦、50千瓦,并正向100千瓦邁進。
而在一個大型數(shù)據(jù)中心里,這樣的機柜往往成千上萬。
![]()
傳統(tǒng)的散熱方式是用風(fēng)扇將冷空氣吹入服務(wù)器帶走熱量,再通過中央空調(diào)對熱空氣進行冷卻。這套方案在數(shù)據(jù)中心領(lǐng)域統(tǒng)治多年,但它存在一個硬性的物理天花板。
空氣的比熱容低,導(dǎo)熱能力也差。當(dāng)單機柜功耗超過30千瓦,即便將風(fēng)扇轉(zhuǎn)速拉到極限、空調(diào)開到最大,熱量仍會在機柜內(nèi)部堆積,導(dǎo)致芯片因過熱而降頻,甚至觸發(fā)保護性宕機。
更棘手的是能耗問題。數(shù)據(jù)中心有一個核心指標(biāo)——PUE(電源使用效率),即數(shù)據(jù)中心總耗電量與IT設(shè)備本身耗電量的比值。理想狀態(tài)下PUE為1.0,意味著所有電力都用于計算。但在現(xiàn)實中,風(fēng)冷數(shù)據(jù)中心需要將大量電力用于空調(diào)和風(fēng)扇,PUE普遍在1.4到1.6之間,表現(xiàn)較好的能做到1.2左右。
全球數(shù)據(jù)中心每年消耗的電力已占人類總用電量的約2%。國際能源署預(yù)測,到2030年,這一比例將翻倍。如果繼續(xù)依靠風(fēng)冷來支撐未來的AI算力,我們或許不是在訓(xùn)練模型,而是在為整個電網(wǎng)的空調(diào)系統(tǒng)“打工”。
散熱,已經(jīng)從運維層面的問題,上升為制約算力發(fā)展的關(guān)鍵瓶頸之一。
![]()
液冷技術(shù)接棒:三種主流方案
當(dāng)風(fēng)冷技術(shù)觸及天花板,全球工程師的目光紛紛投向液冷技術(shù)。液冷并非單一技術(shù),而是包含多種方案的技術(shù)譜系。當(dāng)前主流的實現(xiàn)方式主要分為三類。
第一類:冷板式液冷
這是目前最成熟的過渡方案。工程師在CPU、GPU等“發(fā)熱大戶”表面貼上一塊金屬冷板,內(nèi)部設(shè)有細(xì)密的液冷管道,冷卻液在管道中流動,通過金屬將熱量導(dǎo)出。
![]()
經(jīng)常玩游戲的讀者可能聽說過“水冷機箱”,其原理與此類似。
由于冷卻液不直接接觸芯片,安全性相對較高,改造成本也較低,因此許多傳統(tǒng)數(shù)據(jù)中心在向液冷過渡時,會優(yōu)先采用冷板方案。
但它的散熱效率存在上限——熱量傳遞需經(jīng)過一層金屬,且機柜中除CPU/GPU外,內(nèi)存、硬盤、電源等部件仍依賴風(fēng)冷散熱,容易造成“冷熱不均”的問題。
第二類:噴淋式液冷
這種方案更為激進。它通過噴頭將冷卻液直接噴灑在發(fā)熱元件表面,利用液體蒸發(fā)帶走熱量。相比冷板式,噴淋式的散熱效率更高,但系統(tǒng)結(jié)構(gòu)更加復(fù)雜。噴頭堵塞、液體分布不均等工程難題仍需攻克,目前應(yīng)用范圍相對較窄。
第三類:浸沒式液冷
這正是在慶陽數(shù)據(jù)中心所見的技術(shù)。它將整臺服務(wù)器乃至整臺機柜完全浸沒在特殊液體中,使液體與每一個電子元件直接接觸,通過熱傳導(dǎo)和熱對流帶走熱量。
![]()
這是當(dāng)前數(shù)據(jù)中心散熱效率的最優(yōu)形態(tài):液體的導(dǎo)熱能力是空氣的25倍,單位體積液體能帶走的熱量更是空氣的近千倍,這使得浸沒式液冷的單機柜散熱能力達(dá)到風(fēng)冷的數(shù)倍甚至十幾倍。同時,浸沒式方案可以均勻帶走所有部件的熱量,沒有死角。由于不需要風(fēng)扇,整個系統(tǒng)幾乎是靜音運行,也徹底擺脫了灰塵的困擾。
技術(shù)路線的選擇并非“非此即彼”,而是根據(jù)不同功耗密度選取最優(yōu)方案。目前慶陽數(shù)據(jù)中心給出的參考是:30千瓦以下,風(fēng)冷依然夠用;30千瓦到50千瓦,冷板式是性價比最高的過渡方案;50千瓦以上,尤其是未來100千瓦級的超密集集群,浸沒式液冷將成為剛需。這三種方案將在未來長期共存,而非簡單的誰取代誰。
![]()
氟化液的優(yōu)勢與工程挑戰(zhàn)
回答了“為什么要采用浸沒式液冷”之后,接下來的核心問題是:如何安全地實現(xiàn)這一方案?
數(shù)據(jù)中心連接著互聯(lián)網(wǎng)、人工智能、智能駕駛等眾多關(guān)鍵領(lǐng)域。一旦芯片完全浸沒在液體中,只要該液體具備微弱的導(dǎo)電性、腐蝕性或揮發(fā)性,整個機房都可能報廢,相關(guān)服務(wù)將全面停擺,影響是毀滅性的。因此,無論采用何種散熱方式,安全始終是首要考量。
為了找到一種既能高效導(dǎo)熱、又能與電子設(shè)備“和平共處”的液體,工程師們已探索多年。
最初,人們嘗試使用礦物油或變壓器油進行散熱,即所謂的“油冷”。這類油品雖具有絕緣性,但黏度大、散熱效率低,長期使用后會氧化變質(zhì),需要定期更換和清理,維護成本較高。后來的硅油性能有所改善,但仍停留在“能用”而非“好用”的階段。
![]()
目前行業(yè)較成熟的解決方案之一,是電子氟化液。
這種無色無味的人工合成有機化合物,從現(xiàn)有測試數(shù)據(jù)來看,具備三個突出特性:
第一,不導(dǎo)電。它的電阻率極高,即使服務(wù)器在通電狀態(tài)下完全浸泡其中,也不會發(fā)生短路。
第二,不腐蝕。服務(wù)器內(nèi)部材料極為復(fù)雜,包括銅電路、金觸點、銀焊點、鋁散熱片、塑料框架、橡膠密封圈等。氟化液必須對所有這些材料保持化學(xué)惰性。研發(fā)團隊為此經(jīng)歷了多次迭代:早期配方解決了金屬腐蝕問題,卻發(fā)現(xiàn)長期浸泡會導(dǎo)致塑料件微量溶脹;后續(xù)持續(xù)攻關(guān)時,又面臨高溫下?lián)]發(fā)損耗的挑戰(zhàn)。直到當(dāng)前這一代產(chǎn)品,廠家通過耐久性測試證實,設(shè)備在氟化液中浸泡10年后拆解,內(nèi)部元器件依然完好如初,相關(guān)特性也已通過工信部驗收。
第三,不揮發(fā)。氟化液的沸點在110攝氏度以上,而服務(wù)器正常工作溫度約七八十?dāng)z氏度。這意味著在常規(guī)運行中,液體幾乎沒有損耗,無需頻繁補充。
即便如此,氟化液仍面臨工程層面的重大挑戰(zhàn)。
首先是密封。整個槽體必須完全密閉,液體循環(huán)管道、電源線、網(wǎng)線、光纖的穿艙位置均需做特殊密封處理。一旦漏液,不僅會造成昂貴損失,還可能污染其他設(shè)備。
其次是維護。傳統(tǒng)服務(wù)器發(fā)生故障時,工程師打開機柜即可更換部件。而對于浸沒式液冷服務(wù)器,維護需要先排液、再操作,流程復(fù)雜得多。此外,并非所有硬件都適合液體環(huán)境,部分類型的硬盤、光模塊對液體敏感,需要重新設(shè)計。
最后是成本。電子氟化液本身價格不菲,再加上專用槽體、循環(huán)泵、熱交換器等配套設(shè)備,初期投入比風(fēng)冷系統(tǒng)高出約20%。不過從長遠(yuǎn)來看,節(jié)省的電費可以收回這部分成本——以中國移動慶陽數(shù)據(jù)中心的測算為例,使用其浸沒式方案,大約4年即可回本。但首次投入的高門檻確實勸退了不少企業(yè)。
![]()
為什么是現(xiàn)在?——三大驅(qū)動力
浸沒式液冷的概念并不新鮮,早在十幾年前就有實驗室在探索。那么,為什么直到最近才開始規(guī)模化落地?
![]()
驅(qū)動力一:GPU功耗曲線將風(fēng)冷逼至絕境。
英偉達(dá)最新的AI芯片,單卡功耗已突破1000瓦。若一個機柜塞滿64張或128張卡,整機柜功耗輕松超過50千瓦,甚至向100千瓦、130千瓦邁進。國產(chǎn)芯片也在快速迭代。風(fēng)冷在這種密度下已完全失效,冷板式液冷也開始力不從心。浸沒式液冷由此從“先進技術(shù)”變?yōu)椤拔ㄒ贿x擇”。
![]()
驅(qū)動力二:應(yīng)用場景的分化。
AI算力分為訓(xùn)練和推理兩大場景。訓(xùn)練大模型時,GPU需要持續(xù)滿負(fù)荷運行數(shù)周甚至數(shù)月,熱量輸出穩(wěn)定且巨大,此時浸沒式液冷的穩(wěn)定散熱和節(jié)能優(yōu)勢非常明顯。而推理任務(wù)不同,用戶調(diào)用AI時,算力需求是脈沖式的,負(fù)載忽高忽低,風(fēng)冷或冷板式在此類波動場景下反而更靈活、更經(jīng)濟。因此,未來的數(shù)據(jù)中心不會是“全場液冷”,而是采用混合架構(gòu):訓(xùn)練集群用浸沒式液冷,推理集群用冷板式液冷或風(fēng)冷,根據(jù)業(yè)務(wù)特性動態(tài)配置。
驅(qū)動力三:國產(chǎn)算力的崛起。
過去,液冷主要配合英偉達(dá)GPU的生態(tài)。而如今,華為昇騰、海光、寒武紀(jì)、燧原等國產(chǎn)芯片已大規(guī)模部署。這些芯片的功耗特性和封裝形式與英偉達(dá)存在差異,對散熱方案提出了新要求。浸沒式液冷憑借“液體包裹一切”的通用性,反而成為適配多元芯片架構(gòu)的最優(yōu)解。這也是慶陽這類國產(chǎn)算力樞紐率先布局浸沒式液冷的重要原因。
![]()
液冷背后:一場算力與能源的博弈
聊完技術(shù),我們最后談?wù)勥@件事的深層意義。
人類進入AI時代,上層是算法、模型與芯片的競爭,而底層則是能源的競爭。
訓(xùn)練一次GPT-4級別的大模型,耗電量相當(dāng)于3萬個家庭一年的用電量。全球數(shù)據(jù)中心的耗電量正以每年超過10%的速度增長。如果不改變散熱方式,未來我們可能面臨“算得起,但供不起電”的尷尬局面。
浸沒式液冷將PUE從1.2降低到1.07,看似只是0.13的微小改進,但放大到百萬千瓦級的算力集群,這意味著每年節(jié)省的電量相當(dāng)于一座小型水電站的發(fā)電量,甚至更多。在“雙碳”目標(biāo)和全球能源緊張的背景下,散熱效率就是能源效率,PUE就是碳排放。
在中國移動慶陽智算中心,浸沒式液冷已經(jīng)從展廳測試走向機房部署。這里全年較低的氣溫、每度3毛8的綠電,以及正在建設(shè)的液冷集群,共同構(gòu)成了目前國內(nèi)最接近規(guī)模化落地的現(xiàn)實樣本。
![]()
但液冷不是終點。當(dāng)單機柜功耗向100千瓦、200千瓦繼續(xù)攀升,今天的氟化液也會遇到新的瓶頸。下一代散熱技術(shù)會是什么?相變材料?超導(dǎo)熱管?還是直接把數(shù)據(jù)中心建到深海或極地?
沒有人知道確切答案。但可以確定的是,只要人類仍在追求更強的算力,散熱技術(shù)的進化就不會停止。因為物理定律從不妥協(xié),工程師能做的,只是在極限邊緣,尋找那0.1的優(yōu)化空間。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.