公眾號記得加星標??,第一時間看推送不會錯過。
日前,JEDEC宣布了DDR5 MRDIMM(Multiplexed Rank DIMM)的新里程碑,包括發布新的JESD82-552 DDR5MDB02多路復用數據緩沖區標準、即將發布JESD82-542 DDR5MRCD02時鐘驅動程序規范,以及MRDIMM Gen2模塊標準即將完成。Gen2設計的目標速度高達12,800 MT/s,而MRDIMM Gen3(計劃速度達到17,600 MT/s)的早期研發工作也已啟動。
作為參考,第一代 DDR5 MRDIMM 平臺目前的最高速度約為 8,800 MT/s,因此 12,800 MT/s 代表著內存帶寬的一次重大飛躍;新規格的速度提升了約 45%。相比之下,即使使用 CUDIMM,標準消費級 DDR5 內存在 JEDEC 規范下的最高速度也遠低于此,當然,發燒級套裝可以通過 XMP 和超頻進一步提升速度。我們目前的Core Ultra 9 285K 測試平臺速度為 8733 MT/s。
但 MRDIMM 專為服務器、AI 系統和高性能計算 (HPC) 工作負載而設計,在這些應用中,內存帶寬比絕對延遲更為重要。與普通桌面 UDIMM 不同,MRDIMM 使用額外的板載邏輯(特別是多路復用 Rank 數據緩沖區 (MDB) 和多路復用 Rank 時鐘驅動器 (MRCD))來提高信號完整性,從而在大容量服務器平臺上實現更高的速度。這使得它們對于向 AI 加速器提供海量數據集的現代 Xeon 和 EPYC 系統來說尤其有用。
即使DDR6和LPDDR6即將到來,MRDIMM依然有其存在的價值。集成新的內存技術需要全新的內存控制器設計,而現代內存控制器IP模塊的復雜程度堪比十年前的整個CPU。 MRDIMM 讓內存制造商和服務器銷售商能夠在無需升級到最新內存標準的情況下,提升新機器的性能和容量,尤其是在產能仍在提升、良率較低的情況下。JEDEC最初發布的 MRDIMM 公告表明,DDR5 MRDIMM 可能會持續發展到 2030 年代,因此,至少在服務器領域,我們可能還需要一段時間才能真正用上 DDR6 內存。
如上所述,作為一種新型內存器件,MRDIMM能夠在不提高 DRAM 芯片頻率的情況下實現更高的帶寬。那么,它真的是救世主嗎?
在本文,我們對一臺配備高端 MRDIMM 主內存的生產服務器進行了詳細的性能、功耗和能耗評估。將內存系統從傳統的寄存式 DIMM(RDIMM)升級到 MRDIMM,帶寬提升了 41%,從而使帶寬密集型工作負載的性能提升了 27% 至 41%。此外,延遲也降低了數百納秒,這有利于對內存延遲敏感的各類工作負載。在相同的帶寬利用率下,RDIMM 和 MRDIMM 的功耗相近。在 MRDIMM 擴展的帶寬范圍內,性能提升遠超功耗增加,對于內存密集型工作負載,服務器能耗最多可降低 30%。
![]()
介紹
在傳統的DIMM中,DRAM芯片和主機接口以相同的頻率運行。多路復用DIMM(MRDIMM)在主機內存通道和DRAM芯片之間執行多路復用,使DRAM芯片能夠以其原生數據速率運行,同時將內存通道頻率提高一倍。這種簡單的設計創新顯著提高了內存性能、能效和容量——這些優勢以前需要幾代DRAM技術的擴展才能 實現。
本文探討了將生產服務器從傳統的 DDR5 RDIMM-6400 內存升級到高端 MRDIMM-8800 內存的影響。計劃于 2026/2027 年推出的第二代 MRDIMM 內存預計速度將達到 12,800 MT/s?。MRDIMM 展現出兩項關鍵性能優勢:
首先,它們拓展了內存帶寬范圍。持續內存帶寬提升了 41.3%,從約 500 GB/s 提升至 12×RDIMM–6400)至超過 700 GB/s(12×MRDIMM-8800)。帶寬密集型工作負載可充分利用這一特性,實現 27% 至 41% 的性能提升;
其次,MRDIMM 可將內存訪問延遲降低高達數十個百分點,即數百納秒。在所研究的平臺上,從內存空載到內存滿載,延遲的改善在整個內存帶寬利用率范圍內均可見,因此可使各種對延遲敏感的工作負載受益。
早期研究報告顯示,配備 MRDIMM 的服務器的功耗顯著增加,這導致人們普遍認為, MRDIMM帶來的性能提升是以顯著的功耗為代價的。我們的功耗分析?區分了兩個帶寬區域:共享帶寬區域(RDIMM和MRDIMM系統均可在此區域運行)和MRDIMM擴展帶寬區域(由RDIMM升級到MRDIMM實現)。在大部分共享帶寬區域內,MRDIMM在相同內存帶寬利用率下表現出與RDIMM相似甚至更低的功耗。在MRDIMM升級解鎖的性能區域內,系統功耗確實會增加。
然而,這種功耗增加是由更高的性能驅動的,而不是像人們通常認為的那樣,是由MRDIMM本身功耗高造成的 。事實上,在MRDIMM擴展帶寬范圍內,性能提升遠大于功耗增加,使其成為能效最高的運行區域。利用該區域的基準測試可將能耗降低 19% 至 30%。
MRDIMM 設計創新
![]()
![]()
圖1:RDIMM/LRDIMM 和 MRDIMM 的架構比較:簡單的 MRDIMM 設計改進可以顯著提高內存控制器接口的內存帶寬
存儲設備的容量和性能從根本上受到信號完整性的限制,如圖 1a所示?,寄存器式 DIM(RDIMM)通過引入寄存器時鐘驅動器(RCD)來提高信號質量? 。它緩沖并重新生成來自內存通道的命令和地址信號,并將它們分發到DRAM芯片。
如圖1b所示?,在多路復用 DIMM(MRDIMM)中,每個子通道被分成兩個獨立的偽通道,分別具有獨立的命令、地址和數據路徑。來自獨立偽通道的信號通過增強型寄存器時鐘驅動器和多路復用數據緩沖器,從主機內存控制器時分復用到同一總線上 。
多路復用RCD(MRCD)將從內存控制器接口接收的信號進行解復用,例如以 12,800 MT/s 的速率運行,并同時向每個以 6400 MT/s 速率運行的 MRDIMM 偽通道提供獨立的命令流和地址流。在數據通路上,復用數據緩沖區 (MDB) 執行內存通道和 DRAM 芯片之間的復用和解復用。
總而言之,MRDIMM 多路復用技術使 DRAM 芯片能夠在保持其原生數據速率的同時,將有效內存通道頻率提高一倍。
MRDIMM 的創新也實現了更高的容量。在目前的 RDIMM 設計中,每個 DIMM 擴展到兩個以上的 rank非常具有挑戰性,因為這會增加內存控制器的電負載,并給 CPU 到內存總線帶來信號完整性方面的挑戰。MRDIMM 通過在每個偽通道中部署兩個 rank(圖?1b中未顯示)來克服這一限制,從而提供了一種簡單且經濟高效的方式來增加 rank 的數量和 DIMM 的總容量 。更高的內存容量,以及更高的單節點吞吐量,通常意味著服務器整合和更低的總體擁有成本。
MRDIMM 的一個關鍵優勢在于它可以作為服務器內存升級的直接替代品。本文評估的服務器以及其他即將推出的 DDR5 CPU 和平臺均支持 RDIMM 和 MRDIMM。因此,用戶在初始設計和部署階段無需在 RDIMM 和 MRDIMM 之間做出選擇。這種靈活性貫穿服務器的整個生命周期,使數據中心能夠在后續升級周期中需要更高內存性能時采用 MRDIMM 。
實驗環境
我們研究了從 DDR5 RDIMM–6400 升級到 MRDIMM–8800 主內存,給雙路 Intel Xeon 6980P ( Granite Rapids) 服務器的影響。
每個 CPU 包含 128 個核心,運行于延遲優化模式,最高頻率為 3.2 GHz。CPU 配備 12 個 DDR5 內存通道,所有實驗中每個通道均配備一個雙列 DIMM。我們量化了運行速度為 8800 MT/s 的第一代 MRDIMM 設備的優勢。為了確保性能、功耗和能耗的公平比較,我們評估了容量相同的 64 GB 的 RDIMM 和 MRDIMM。在本文中,我們以每個 CPU 插槽為單位報告性能、功耗和能耗測量結果。
使用一系列廣泛的內存密集型基準測試來評估基于 RDIMM 和 MRDIMM 的系統的性能、功耗和能耗。性能測量基于每個基準測試定義的指標:STREAM 的持續內存帶寬;HPCG 的每秒浮點運算次數;Intel MLC 的卸載內存延遲和 Google Multichase;以及最近發布的 Mess 基準測試的帶寬-延遲曲線,Mess基準測試會生成復雜的內存流量模式,這些模式由每個核心內的順序訪問以及跨核心的內存請求交錯決定 。為了驗證我們在不同訪問模式下的發現,我們使用 Mess-Random 基準測試重復了所有實驗,該基準測試會在每個核心上生成隨機流量。論文的所有結論均保持不變。
使用 RAPL 測量 DRAM 和 CPU 的功耗和能耗計數器。服務器總功耗使用 IPMItool 測量 。它通過基板管理控制器讀取硬件傳感器數據。
MRDIMM在整個內存帶寬范圍內
性能優于 RDIMM
![]()
![]()
圖3中的水平柱狀圖?也顯示了內存密集型基準測試的性能提升。對于 HPCG,我們使用類似?3?這樣的尖括號,圖 3 顯示了基準測試在內存帶寬-延遲曲線中的位置。因此,圖?3將內存系統性能(帶寬-延遲曲線)、基準測試的內存系統利用率(在曲線中的位置)以及性能提升(柱狀圖)聯系起來。
將內存通道數據速率從 RDIMM-6400 提升至 MRDIMM-8800,理論內存帶寬提升了 37.5%,從每通道 51.2 GB/s 提升至 70.4 GB/s。通過 Mess 基準測試測得的持續帶寬提升高達 41.3%,略高于理論提升幅度,這得益于內存總線利用率的提高。帶寬受限基準測試結果顯示,如圖?3所示,成功利用了更高的持續 MRDIMM 帶寬,實現了 27%–41% 的性能提升。
在所研究的平臺中,基于 MRDIMM 的內存系統在 RDIMM 和 MRDIMM 系統共同運行的整個帶寬范圍內均表現出更低的延遲。如圖?3所示,由于排隊開銷更低,從 RDIMM 升級到 MRDIMM 的延遲優勢隨著帶寬利用率的提高而增加,在內存飽和區域可達到百分之幾十,即幾百納秒。
對延遲敏感的 Intel MLC 和 Google Multichase 基準測試,如圖?3所示,基于 MRDIMM 的系統性能提升了 3%–4%,相當于空載內存訪問延遲降低了約 5 ns。這一結果與直覺相悖,因為 MRDIMM 集成了多路復用數據緩沖區(圖?1b),而這些緩沖區預計會引入額外的延遲
與 CPU 和內存供應商的討論表明,這種現象并非源于 MRDIMM 固有的訪問延遲,而是由于處理器在基于 RDIMM 和 MRDIMM 的系統中調度和處理內存請求的方式存在差異。具體而言,MRDIMM 中更高的內存通道頻率和獨立偽通道的存在減少了隊列沖突,并提高了內存子系統中的有效并行性。這些優勢使處理器能夠利用更有效的延遲優化機制,從而在整個帶寬范圍內提升對延遲敏感的工作負載的性能。
功耗是否是必須付出的代價?
早期研究表明,配備 MRDIMM 的服務器功耗顯著增加。Dravái 和 Reguly 評估了內存密集型高性能計算 (HPC) 基準測試,發現從配備 DDR5-5600 RDIMM 的 Intel? Xeon? Platinum 8592+ (Emerald Rapids) 服務器升級到配備 DDR5-8800 MRDIMM 的 Intel? Xeon? Platinum 6960P (Granite Rapids) 服務器時,DRAM 功耗和服務器總功耗均增加了約 50%。最近的一份在線報告也指出,在服務器從 RDIMM 升級到 MRDIMM 后,內存密集型應用的功耗也顯著增加。這些觀察結果導致人們普遍認為,MRDIMM 帶來的性能提升是以顯著的功耗為代價的。
我們詳細的功耗特性分析揭示了更全面的情況,并支持對這些觀察結果的不同解釋。我們的分析區分了兩個帶寬區域:共享窗口(約 500 GB/s),RDIMM 和 MRDIMM 系統均可在此范圍內運行,因此可以直接進行比較;以及 MRDIMM 擴展窗口(500–700 GB/s),這是通過 RDIMM 升級到 MRDIMM 實現的。
![]()
圖 4 顯示了基于 RDIMM(橙色)和基于 MRDIMM(藍色)系統的 DIMM、CPU 和整個服務器的帶寬-功耗曲線。柱狀圖顯示了所研究基準測試的服務器功耗增加情況。基準測試在功耗曲線上的帶寬位置(圖 4 中未明確顯示)與其在圖 3 中的位置相對應。Google Multichase 和 Intel MLC 延遲測試位于內存未加載區域,而其余基準測試則充分利用了基于 RDIMM 和 MRDIMM 系統的可用內存帶寬。
在內存未加載系統中,12 條 64 GB MRDIMM 的功耗比 RDIMM 高約 15 W,導致 Google Multichase 和 Intel MLC 延遲測試的功耗分別高出 4% 和 6%。這種增長很可能是由于 MRDIMM 內存條中額外的復用數據緩沖區(RDIMM 內存條所不具備)以及復用 RCD 的復雜性更高所致。
在 500 GB/s 以下的大部分共享帶寬范圍內,升級到 MRDIMM 內存條只會使服務器總功耗增加 10-20 W,這一增幅非常小,在圖 4 的服務器帶寬-功耗曲線中幾乎無法察覺。這種微小的增長主要源于略高的 CPU 功耗(CPU 帶寬-功耗曲線),這很可能是由于更高的內存控制器頻率所致。
相比之下,在相同的內存帶寬利用率下,MRDIMM 內存條的功耗與 RDIMM 內存條相同甚至更低:在共享帶寬范圍內,RDIMM 和 MRDIMM 內存條的帶寬-功耗曲線幾乎重合。如前所述,由于復用數據緩沖區和 RCD 的存在,MRDIMM 內存條需要額外的功耗。然而,MRDIMM-8800 設備中 DRAM 芯片以更低的頻率(4400 MT/s)高效運行,彌補了這一功耗損失,而 RDIMM 的頻率為 6400 MT/s 。
在 MRDIMM 擴展帶寬范圍內,服務器能夠維持更高的內存帶寬。正如預期的那樣,這需要更高的功耗,這些功耗分布在 DRAM DIMM(20-35 W)、CPU(30-40 W)和其余服務器組件(低于 20 W)上。帶寬受限基準測試中也可見功耗增加,如圖 4 的柱狀圖所示,服務器功耗增加了 3%(HPCG)到 10%(LMBench Read)。
我們詳細的功耗評估揭示了一個意想不到的發現:在內存帶寬利用率最高的情況下,CPU 功耗降低了 20–35 W。圖 4 中 CPU 和系統總功耗曲線的最右側部分均顯示了這一降低。這是首個報告此 CPU 功耗行為的研究,其詳細分析是正在進行的工作的一部分。作為這項研究的初步步驟,我們確定了兩個與功耗降低密切相關的因素。第一個因素是寫入分配規避策略的激活,該策略允許高端 Intel CPU 在某些存儲未命中時繞過緩存分配,盡管其架構模型是寫入分配的。第二個因素是內存訪問延遲的急劇增加,如圖 3 所示。
能效
圖 5 詳細展示了基于 RDIMM 和 MRDIMM 系統的能效特性。圖中顯示了基于 RDIMM 和 MRDIMM 的系統在不同內存流量強度(x 軸)下的能效(單位為 GB/焦耳)。曲線基于 Mess 基準測試產生的內存流量,并結合了 DIMM、CPU 和服務器能耗計數器的測量結果。水平柱狀圖顯示了由于從 RDIMM 系統升級到 MRDIMM 系統,內存密集型基準測試的能效提升。
在內存空載區域(~0 GB/s),配備 MRDIMM 的服務器的能效略低,但低不到 3%。這種差異非常小,在能效曲線中幾乎無法察覺,但在 Google multichase 和 Intel MLC Latency 基準測試中,能效降低 1%~3% 的現象可以觀察到。在共享帶寬范圍內,基于 RDIMM 和 MRDIMM 系統的能效曲線基本重合。在 MRDIMM 擴展帶寬范圍(500–700 GB/s)內,能效隨著帶寬的增加而持續提升,使其成為 DRAM、CPU 和整個服務器最高效的運行區域。帶寬受限的基準測試能夠充分利用這一運行區域,從而實現 18–30% 的更高能效。
![]()
成本與普及
我們的研究結果表明,MRDIMM 是一項極具前景的技術創新。然而,其在生產中的普及程度和速度也將取決于器件成本以及我們能否識別出能夠從這項技術中獲益匪淺的應用領域。
我們研究中評估的內存器件(64 GB RDIMM-6400 和 MRDIMM-8800)目前的零售價格幾乎相同。我們還與一家主要的內存制造商討論了即將推出的第二代 MRDIMM 器件的定價。盡管這些未來產品的具體定價數據尚未公布,但正如我們的研究量化結果所示,其在帶寬密集型工作負載下顯著的性能提升和更高的能效預計將足以對現代服務器的內存選擇決策產生實質性影響。
即使下一代 MRDIMM 由于其更先進的緩沖和信號架構而以更高的價格進入市場,其新增功能仍然具有經濟效益,尤其是在內存帶寬或內存訪問行為是主要瓶頸的工作負載中。除了內存帶寬的提升,在諸如大規模人工智能推理、實時分析、金融科技系統和高性能計算等環境中,更高的單節點吞吐量通常可以直接轉化為服務器整合。減少所需服務器的數量可以降低計算、網絡、軟件許可和數據中心占用空間方面的支出。考慮到這些系統級的成本節約,MRDIMM 可以顯著降低總體擁有成本。
結論
本文對一臺配備高端 MRDIMM 主內存的生產服務器進行了詳細的性能、功耗和能耗評估。內存系統從傳統的 RDIMM-6400 升級到 MRDIMM-8800,帶寬提升了 41%,帶寬密集型工作負載的性能提升了 27% 至 41%。此外,延遲降低可達數百納秒,使對內存延遲敏感的各類工作負載受益。在相同的帶寬利用率下,RDIMM 和 MRDIMM 的功耗相近。
在 MRDIMM 擴展帶寬的范圍內,性能提升遠超功耗增加,對于內存密集型工作負載,服務器能耗最多可降低 30%。這種性能和能效的顯著提升足以對現代服務器的內存選擇產生重大影響,即使這些先進的內存設備價格較高。
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4400內容,歡迎關注。
加星標??第一時間看推送
求推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.