公眾號記得加星標??,第一時間看推送不會錯過。
人工智能時代的電力故事通常以龐大的數字開篇:千兆瓦級的數據中心需求、每個機架數百千瓦的電力、800伏直流電、高壓直流輸電、變電站以及建在電網旁的新園區。所有這些都至關重要。它們描述了人工智能基礎設施電力供應方式的真正轉變。但它們僅僅解釋了瓶頸的一方面。
與此同時,一些更小的部件也在悄然發生變化。一個在系統層面幾乎不可見的組件,悄然成為了制約因素之一:芯片電容。在人工智能GPU板周圍,MLCC(多層陶瓷電容)的數量可能高達數千個。而在服務器層面,這個數字甚至可以達到數萬個。與變電站和輸電線路的故事一樣,一個比指甲蓋還小的組件,也成為了人工智能功耗問題的一部分。
為什么會發生這種情況?常見的答案很簡單:“因為行業正在向 800V 電壓過渡。”這個答案聽起來合情合理,但并不精確。要了解 MLCC 需求為何激增,我們必須追蹤電源的流向,一直到 GPU,然后觀察電源到達 GPU 之前發生了什么。
同樣的力量,不同的瓶頸
電力單向流動,但其面臨的問題卻因系統位置的不同而截然不同。上游電力輸送的關鍵在于高效地遠距離傳輸大量電力。此時,更高的電壓至關重要。在相同功率下,提高電壓可以降低電流,而降低電流則可以減少電纜損耗和銅材用量。正因如此,人工智能機架正朝著更高的配電電壓發展,而 800V 直流電壓則處于這一趨勢的前沿。
下游供電必須解決相反的問題。提高電壓并不能解決問題。GPU核心最終運行在低于1V的電壓水平。電壓低,電流大,負載變化非常迅速。因此,同一個供電系統要應對兩個不同的挑戰:上游要應對損耗,下游要應對不穩定。MLCC的需求在第二個挑戰中激增。
最后一厘米
供水系統能很好地說明這一點。水從大型水庫流出,經過大型管道,進入城市,最終到達水龍頭。但當有人突然打開水龍頭時,遠處的水庫無法立即響應。管道有長度、慣性和延遲。壓力變化需要時間才能傳遞。如果在水龍頭附近有一個小型儲水箱,系統的運行方式就會有所不同。當突然需要用水時,小型儲水箱會首先響應。當壓力波動時,它可以局部吸收沖擊。
GPU附近的MLCC可以解決類似的問題。當GPU突然需要電流時,遠端電源無法立即響應。電源路徑始終存在電阻、電感和延遲。芯片內部的開關操作會在納秒級產生快速的電流需求,而電路板和VRM則會在更寬的時間范圍內經歷負載瞬變。無論哪種情況,遠端電源都無法立即滿足需求。本地MLCC可以優先響應。
MLCC(多層陶瓷電容器)并非電池。它無法儲存能量數秒或數分鐘。它是一個局部緩沖器,在極短的時間窗口內釋放或吸收電荷。它還有助于分流高頻紋波并抑制開關活動產生的噪聲。僅僅將電力輸送到GPU附近是不夠的。電力必須及時到達,波動幅度小,并且以芯片實際可以使用的形式輸送。
MLCC并非長時儲能裝置,而是用于電流的局部定時裝置。
從瀑布到三角洲
當電源到達GPU時,它已經經過多個降壓階段。在傳統的服務器電源架構中,服務器電源先經過電源單元(PSU),然后進入12V或48V等中間總線,最后通過電壓調節模塊(VRM)進入芯片使用的低于1V的電源軌。新型AI機架式架構在此基礎上增加了一個更高的分配電壓,例如800V直流。一些架構會將800V降壓至48V。另一些架構則考慮繞過48V,直接使用較低的中間電源軌,例如6V。
中間轉換階段可能因架構而異,但最終目標始終相同:即GPU核心使用的低于1V的電源軌。將一種直流電壓轉換為另一種直流電壓的過程稱為DC-DC轉換。
基本關系很簡單:
![]()
電壓越高,相同功率所需的電流就越小。電壓下降時,電流必然增大。
這就是為什么800V電壓看起來像一道落差極大的瀑布。它能讓系統以較低的電流高效地傳輸電力。但GPU核心需要的并非瀑布,而是更接近三角洲的景象:低壓,但流量巨大。DC-DC轉換器正是將兩者相轉換。它將高電壓、低電流的電力轉換為低電壓、高電流的電力。這并非簡單地浪費能量,而是改變了壓力和流量的組合。
但這種轉換過程并非絕對平滑。轉換器通過快速開關電源來產生所需的平均電壓和電流。這就像快速開關閘門來控制平均水流一樣。每次閘門移動,下游的流量和壓力都會波動。在電力系統中,這種波動表現為紋波和負載階躍瞬態響應。GPU 附近的 MLCC 就像最終電壓差附近的局部小型緩沖罐。當電流波動時,它們會吸收附近的波動,并將開關轉換產生的粗糙輸出轉換為芯片實際可用的信號。
常見的誤解
這時,自然而然地會產生一個問題:如果電力系統正在向800V過渡,那么800V是否導致了MLCC需求的激增?
這雖然是個誘人的答案,但并非最精確的答案。800V 是一種上游解決方案。隨著機架功率的增加,以較低電壓輸送電力變得越來越困難。較低的電壓意味著較高的電流。較高的電流意味著更高的 I2R 損耗、更粗的電纜、更多的熱量以及更不實用的配電結構。因此,電壓需要提高。
800V 是一種將電力高效輸送到數據中心和機架的方法。上游的故事——為什么是 800V,為什么是現在——這本身就是一個值得探討的問題。這就像拓寬高速公路一樣。但 800V 并不能直接解決 GPU 前端的高電流、快速瞬態問題。這個問題仍然屬于 VRM、PDN 和 MLCC 的范疇。
這樣更容易理解因果鏈:AI GPU 的擴展同時給上游和下游的供電都帶來了壓力。上游通過提高電壓分配(包括 800V 直流)來應對。下游則通過更強大的 VRM、更緊湊的 PDN 和更積極的解耦來應對。
因此,800V電壓和不斷增長的MLCC需求并非直接的因果關系。它們是同一根本原因的兩個結果:AI GPU需要更高的功率和更快的瞬態響應。但這并不意味著800V電壓無關緊要。它能夠支持更高的機架功率和更大的GPU系統。如果沒有上游擴展能力,高功率GPU系統會更早達到性能瓶頸。如果這些系統無法擴展,下游MLCC的需求就不會以同樣的方式增長。
800V電壓本身并沒有創造對MLCC的需求,它只是促成了對MLCC需求的系統出現。
系統真正想要的是什么
現在問題變得更加具體了。如果更大的GPU系統成為可能,為什么這些系統還需要這么多MLCC?常見的解釋是基于數量的:一塊AI GPU板卡使用大量的MLCC,而GPU出貨量不斷增長,因此需求也隨之增加。這種解釋沒錯,但它只觸及了問題的冰山一角。
電源分配的設計并非基于元件數量,而是基于目標阻抗。工程師首先要確定芯片在突然需要更大電流時能夠承受的電壓波動范圍,然后設計電源分配網絡以滿足該條件。
大多數讀者都知道V=IR。電流流過電阻時,電壓會下降。功率傳輸的原理也類似,但這里的R不僅僅是直流電阻。在高頻下,電感和電容也會產生影響。這時,問題就變成了阻抗,或Z。
PDN 的關鍵關系是:
![]()
其含義很簡單。如果負載突然需要額外的電流ΔI,而電壓只允許變化ΔV,那么電源分配網絡的阻抗必須保持在目標值以下。
在AI GPU中,電流和電壓同時朝著錯誤的方向發展。電流步長越來越大,而允許的電壓變化幅度卻越來越小。分子縮小,分母增大,目標阻抗急劇下降。
這才是MLCC需求激增的真正原因。系統本身并不需要更多的電容器,它需要的是更低的阻抗。而MLCC恰好是滿足芯片附近這種需求的最實用方法之一。
系統并沒有要求增加電容器,而是要求降低阻抗。
為什么會變成電容器問題
“降低阻抗”聽起來可能很抽象。但在芯片附近的高頻供電環境中,它就變得非常具體了。當突然需要電流時,遠端的電源無法立即響應。必須有某種東西來填補這個空白。在電壓波動不能過大的短暫窗口期內,最直接有效的工具就是電容。
另一個簡單的等式也能有所幫助:
![]()
這解釋了為什么MLCC的數量會急劇增加。GPU需要更大的瞬時電流,允許的電壓波動范圍更小,系統必須在更短的時間窗口內做出響應。為了在更短的時間內支持更大的電流階躍和更小的電壓波動,系統需要在負載附近使用更多有效的電容。
這并非自相矛盾。目標并非電容本身,而是降低阻抗。但在AI GPU供電網絡的最后幾厘米,MLCC(多層陶瓷電容器)是實現降低阻抗的最重要物理途徑之一。
真正的電源分配網絡(PDN)設計并非僅僅是增加電容。等效串聯電感(ESL)和等效串聯電阻(ESR)會影響自諧振特性。反諧振會損害寬帶阻抗。封裝電感會改變芯片所感受到的有效阻抗。電路板布局和電壓調節模塊(VRM)控制回路決定了整個系統的響應。
但方向很明確:更大的電流階躍、更小的電壓容差、更短的響應窗口、更低的阻抗以及更多的MLCC電容。在AI GPU領域,這些趨勢同時朝著同一個方向發展。
同樣的壓力,兩種結果
VRM也面臨著同樣的壓力。正如前文所述……最后幾厘米隨著人工智能GPU性能的提升,電壓調節模塊(VRM)也擴展到了多相結構。人們很容易由此得出結論:“相數越多,MLCC(多層陶瓷電容器)就越多。” 方向大致正確,但這種解釋并不全面。
多相電壓調節模塊(VRM)可以通過交錯排列來降低紋波。如果只考慮紋波,增加相數似乎可以減少對輸出電容的需求。但紋波并非增加相數的唯一原因。真正的原因是電流。單相供電無法合理地處理現代AI GPU所需的電流、熱負載和瞬態響應。將負載分配到多相供電中可以分散熱量、共享電流并改善響應速度。
隨著這種情況的發生,每個功率級附近的輸入去耦要求變得更高。在輸出端,共享電源軌需要更密集的去耦網絡才能滿足整體阻抗目標。開關節點數量增加,局部噪聲源也隨之增多。功率轉換變得更加分散,并更靠近負載。最終,MLCC 的需求并非僅僅是相數的函數,而是阻抗目標的函數。
多相電壓調節模塊(VRM)并非MLCC(多層陶瓷電容器)的出現,而是與之同步發展。同樣的壓力因素導致了相數和MLCC數量的增加。這種壓力因素有一個名稱:高電流、低電壓、快速瞬態。
人工智能改變了能源消耗方式
將MLCC需求解釋為“更多AI服務器”忽略了問題的一半以上。AI GPU確實會消耗更多電力,但更重要的變化在于它們的耗電方式。
電壓下降,電流上升,負載瞬態響應加快,電源轉換單元更靠近芯片,允許的電壓波動范圍也更小。這些變化共同導致電源分配網絡(PDN)的阻抗目標值降低。在最后階段,實現這一目標的最有效方法是在負載附近放置更高效的電容。
由于阻抗必須降低,MLCC 的數量增加了。
在系統層面,層級結構清晰。800V 是遠距離輸送電力的主干線。48V 則是較小的配電線路。電壓調節模塊 (VRM) 將 800V 的電力轉換為芯片實際可用的電壓。而多層陶瓷電容器 (MLCC) 則位于最終交匯點旁,起到局部緩沖作用,在電流到達負載之前吸收部分電流。MLCC之后會發生什么呢?最后一微米進入模具本身這是另一個問題。
人工智能的瓶頸不僅在于如何為數據中心提供更多電力,還在于如何確保電力在最后一厘米的穩定供應。而這最后一厘米的穩定供應,是由一個比指甲蓋還小的組件來保障的。
這就是多層陶瓷電容器發揮作用的地方。
并非因為電容器變得令人興奮,而是因為人工智能使得電力傳輸的最后一厘米變得不容忽視。
(來源:編譯自nutty)
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4400內容,歡迎關注。
加星標??第一時間看推送
![]()
![]()
求推薦
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.