網易首頁 > 網易號 > 正文申請入駐

清華研究者的新突破：讓8張游戲顯卡流暢訓練2350億參數的超級AI

2026-05-07 20:53:23　來源: 科技行者

北京舉報

分享至

這項由清華大學計算機科學與技術系領導的研究成果發表于2026年4月，論文編號為arXiv:2604.27085，有興趣深入了解的讀者可以通過該編號查詢完整論文。

研究團隊由來自清華大學的多位研究人員共同完成，核心成果是一套名為"RoundPipe"的全新訓練調度系統，專門針對消費級顯卡服務器上訓練超大型語言模型的效率問題。

一、當游戲顯卡想要訓練AI大模型，遇到了什么困難？

家用或工作室級別的顯卡，比如英偉達RTX 4090，售價大約是數據中心專用A100顯卡的五分之一，但計算能力卻大致相當。這讓許多中小研究機構和獨立開發者心動不已：既然算力差不多，為什么要花五倍的錢？

然而現實并沒有那么美好。消費級顯卡有兩塊"短板"讓人頭疼。第一塊短板是內存太小。一張RTX 4090只有24GB顯存，而訓練一個80億參數的模型，光是存儲模型本身的各種數據就需要128GB，相差了五六倍。第二塊短板是顯卡之間的通信太慢。數據中心的顯卡通過一種叫做NVLink的高速通道互聯，帶寬高達每秒300GB；而消費級顯卡使用的PCIe接口，速度只有每秒32GB，不到前者的11%。

為了繞開這兩個限制，研究人員已經發展出了一些辦法。一種思路是把模型參數存到電腦的內存甚至硬盤里，只在需要計算的時候才臨時把數據傳進顯卡——這就叫"CPU卸載"（CPU offloading）。另一種思路是把模型切成好幾段，每張顯卡負責一段，數據從前往后依次流過，像工廠流水線一樣——這叫"流水線并行"（Pipeline Parallelism）。清華大學一個名為Mobius的先前系統正是把這兩者結合起來，大大減少了顯卡之間的通信量，因為流水線方式下顯卡間只需要傳遞激活值（中間計算結果），而不是全部參數。

但即便是這樣的組合方案，依然存在一個根本性的痼疾，研究團隊將其命名為"權重綁定問題"（weight binding issue）。理解這個問題，需要先了解流水線并行是怎么工作的。

以一個12層的語言模型為例，加上最后的語言模型頭（LM Head，負責把內部表示轉換成詞匯概率的模塊），一共13個部分，分配給4張顯卡。傳統方案下，每張顯卡負責特定的層，比如第一張顯卡負責第1、5、9層的計算，第四張負責第4、8、12層以及那個特別重的LM Head。問題就在這里：LM Head通常比普通的Transformer層大得多，專門運行它的顯卡每次都要多花時間，而其他顯卡只能干等著，什么都不能做。這些白白浪費的等待時間，就叫做"流水線氣泡"（pipeline bubble）。

研究團隊通過實際測量發現，在訓練LLaMA-3.1-8B模型時，這種氣泡可以占據整個訓練時間的30%之多。換句話說，每100分鐘的訓練時間里，有整整30分鐘顯卡什么活都沒干，就是在等。

二、一個關鍵洞察：當參數不再屬于某張特定的顯卡

傳統流水線的核心設定是：某一段模型的參數永遠住在某張固定的顯卡上。這就像一個工廠流水線，每個工位只能做特定的工序，做螺絲的工位永遠只擰螺絲，做焊接的工位永遠只焊接，哪怕焊接工位忙得團團轉、擰螺絲的工位閑得發慌，也不能互相幫忙。

清華團隊的核心觀察是：CPU卸載恰好打破了這個限制的前提。既然模型參數本來就存在內存里，每次計算都要臨時傳到顯卡，那么傳到哪張顯卡里，其實是可以靈活選擇的。今天第三層的參數可以傳到1號顯卡，明天同樣是第三層的參數，完全可以傳到2號顯卡去計算。顯卡變成了一個無狀態的"計算工人池"，任何一張顯卡都可以執行任何一段模型的計算，只要把數據送過去就行。

這就是論文提出的"計算分發范式"（Computation Dispatch Paradigm）：模型參數和激活值統統放在內存里，計算任務（連同所需的參數和數據）被動態分發到任意一張空閑的顯卡上執行。由于參數本來就需要從內存傳輸到顯卡，這種重新分配實質上并不增加額外的通信量，不過是把"傳給1號顯卡"改成了"傳給3號顯卡"而已。

當然，這個聽起來簡潔的思路在實際落地時面臨重重挑戰，研究團隊為此設計了一整套精細的系統方案，這就是RoundPipe的完整工作。

三、RoundPipe的調度策略：輪轉派發與不對稱切分

有了計算可以自由流動的基礎，RoundPipe設計了一套全新的流水線調度方案，由兩個核心機制組成：輪轉派發和不對稱切分。

先說輪轉派發（Round-robin dispatch）。RoundPipe把所有顯卡排成一排，計算任務按照順序依次分配下去，分完一輪再從頭開始——就像發撲克牌一樣，每人依次得一張，一圈一圈地發。更妙的是，RoundPipe不區分"前向傳播階段"和"反向傳播階段"，而是把兩者拼成一個連續的任務序列，統一按輪轉順序派發。假設有4張顯卡，前向傳播有若干個階段，反向傳播也有若干個階段，這些階段被排成一隊，1號顯卡做第1個，2號做第2個，3號做第3個，4號做第4個，然后回到1號做第5個，如此循環。

每一輪處理一批微批次（把訓練數據切成小塊，每塊叫一個微批次）。當一輪處理完畢，下一輪從上次停下的地方繼續，不需要任何額外的等待或重置。輪與輪之間無縫銜接，整個流水線近乎連續運轉，幾乎消除了階段間的氣泡。

再說不對稱切分（Asymmetric stage splitting）。神經網絡的前向傳播（從輸入到輸出計算結果）和反向傳播（從輸出反推梯度來更新參數）在計算量上并不相同。反向傳播由于需要重新計算一遍前向過程（即"激活重算"，activation recomputation），總耗時大約是前向的三倍。傳統流水線為了簡便，對前向和反向使用完全相同的層分組方案，這就導致在前向和反向的交界處出現等待。

RoundPipe的做法是：前向傳播和反向傳播分別獨立設計分組方案。前向傳播可以每次處理三層，反向傳播每次只處理一層，恰好讓兩種操作的每個階段耗時大致相等，流水線就能均勻流動，沒有堵塞。論文把這種聯合處理的銜接點稱為"融合階段"（fused stage）——在前向和反向的邊界，有一批層同時完成前向計算和反向傳播，前向計算直接作為反向所需的重算結果，省掉了一次額外的前向過程，節約了計算資源。

此外，RoundPipe還原生支持"異步優化器更新"。在傳統訓練中，每完成一次迭代的前向和反向傳播，就需要等CPU把參數更新完才能開始下一輪。CPU處理大模型參數更新很慢，比如處理320億參數的模型需要9.6秒。RoundPipe采用"滯后一步"的異步策略：第T+1輪迭代使用的是第T-1輪產生的參數更新結果，而CPU更新第T輪的參數在后臺默默進行，不打斷GPU的工作節奏。已有大量研究證明，這種滯后一步的策略不會損害模型最終的訓練效果。得益于這一設計，迭代與迭代之間的等待氣泡也徹底消失了。

用數學來量化：RoundPipe的氣泡來源只剩下流水線啟動時的"預熱"和結束時的"冷卻"，兩者合計消耗的時間為 N×(N-1) 個階段單位（N是顯卡數量），而總工作量是 M×S 個階段單位（M是微批次總數，S是總階段數）。氣泡比例因此為 N×(N-1) 除以 (M×S+N×(N-1))。由于RoundPipe的總階段數S大約是傳統循環流水線的4/3倍（因為不對稱切分產生了更多細粒度的階段），氣泡比例比傳統方法更低。在實際測試中，開啟異步優化器后，RoundPipe的絕對氣泡比例降到了4.5%以下。

四、數據傳輸的精細調度：讓大車小車各行其道

解決了調度策略之后，還有一個實際問題：在這套方案下，內存和顯卡之間需要持續不斷地傳輸大量數據。每個階段都需要傳送模型參數（幾百MB到幾GB不等），還需要傳送每個微批次的激活值（中間計算結果）。如果這些傳輸任務混在一起排隊，就可能出現"堵車"——一個巨大的參數傳輸任務占滿了通道，后面急需趕路的激活值卻進不來，顯卡只能傻等著。

研究團隊把這個問題類比為道路調度，提出了"優先級感知傳輸調度引擎"（priority-aware transfer scheduling engine）。核心思路是給數據分清楚輕重緩急：激活值的傳輸屬于關鍵路徑，下一階段的計算必須等它到位才能開始，因此是高優先級；模型參數的傳輸則相對靈活，可以在激活值傳輸的空檔期里悄悄完成，是低優先級。

具體實現上，RoundPipe為每張顯卡維護了五條并行工作的數據通道：一條負責實際計算，另外四條分別專門處理"激活值上傳""激活值下載""參數上傳""梯度下載"。PCIe接口是全雙工的，上傳和下載可以同時進行，因此四條通道可以充分利用帶寬。激活值總是提前一個微批次開始傳輸，或延后一個微批次才下載，保證計算流永遠不會因為等數據而空轉。參數和梯度的傳輸則被切成若干小塊，見縫插針地填入激活值傳輸之間的空檔。

對于特別大的參數塊（比如LM Head），RoundPipe先把它切成更小的分片，再用"最長處理時間優先"（longest-processing-time-first）的調度算法分配到各個時間窗口，確保每個窗口的傳輸量盡量均勻，不會出現某個時間段被一個超大參數塊完全占滿的情況。

通過理論的"屋頂線分析"（Roofline Analysis），研究團隊證明了只要批次大小不太?。芗Ｐ椭辽?個，MoE模型至少80個），PCIe的傳輸時間可以完全被計算掩蓋，顯卡始終處于忙碌狀態，不會因為等待數據傳輸而浪費時間。

五、參數一致性協議：讓CPU和GPU同時工作又不打架

異步優化器帶來了另一個棘手問題：CPU在更新參數，GPU同時在用參數做計算，兩者都在讀寫同一批數據，如果沒有協調機制，就可能發生"寫了一半被讀走"或者"還沒寫完就被覆蓋"的數據錯亂。

為了保證數據一致性，最直接的方法是在迭代邊界插入一個"全局屏障"：CPU把所有參數都更新完，GPU才能開始下一輪。但這等于把異步優化器的好處完全抵消，訓練時間反而更長，比如對于Qwen3-32B模型，每次迭代會額外增加14秒的等待。

RoundPipe的解法是"細粒度事件協議"（fine-grained event-based protocol）。整個系統維護著模型參數的三個副本：顯卡上短暫存在的"計算副本"、內存里的低精度"主副本"，以及CPU優化器使用的高精度"優化器副本"。研究團隊把需要遵守的順序約束精確歸納為五條規則，分別保護參數完整性、防止寫入撕裂、保護梯度完整性、保護梯度寫入順序，以及維護優化器步驟語義。

關鍵的創新在于：這些約束不是以整個模型為單位來執行的，而是以單個層為單位。優化器處理完第1層的參數更新，立刻發出一個信號事件，GPU Workers收到信號后，就可以開始用第1層的新參數做下一輪迭代的計算，完全不必等待第2層、第3層直到最后一層都更新完畢。整個協調過程通過"點對點事件信號"實現，控制器動態創建事件對象，分發給各個工作線程，線程之間直接互相等待和觸發，不需要經過主線程，不會產生額外的阻塞。

這樣一來，參數更新和計算任務在時間上高度重疊，那些原本因為等待CPU完成參數同步而白白浪費的時間，都被轉化成了實際的計算工作。

六、自動切分算法：讓系統自己決定怎么分層

以上所有設計都有一個前提：需要找到一個好的流水線切分方案，決定每個階段包含哪些層，使得每個階段的計算時間盡量均等。這個切分方案如果靠人工手調，既費力又容易出錯，不同模型、不同顯卡配置都需要重新調整。

RoundPipe為此設計了一個自動化的切分算法。算法在訓練開始前的幾輪迭代中自動收集每一層的實際執行時間和內存占用，然后尋找一個切分方案，使得最慢階段的執行時間盡量短，同時保證每個階段不超過顯卡的內存限制。

這個優化問題表面上復雜（暴力搜索是指數級復雜度），但研究團隊發現了一個巧妙的性質：最優方案中"最慢階段的時間上限"（記作tmax）必然是某些連續層的執行時間之和，而這樣的組合總數是O(L?)級別（L是總層數）。對每一個候選的tmax，問題退化為一個經典的貪心問題：從第一層開始往后塞，每個階段盡量多裝，直到超過tmax或內存限制才開新階段，整個過程只需O(L)時間掃描一遍。兩層循環嵌套，總復雜度是O(L?)，對于實際使用的模型規模完全可以接受。

實測下來，切分Qwen3-1.7B、LLaMA-3.1-8B等模型只需2到5毫秒，切分參數量最大的Qwen3-235B（94層）也只需1.47秒，相對于動輒數小時的訓練時間，這個開銷可以忽略不計。

七、實驗結果：數字背后的真實意義

研究團隊在兩種硬件環境下進行了全面測試：一臺配備8張RTX 4090消費級顯卡的服務器，以及一臺配備8張A800數據中心顯卡的服務器。測試模型覆蓋了從17億到2350億參數的五個大小，包括三個密集模型（Qwen3-1.7B、LLaMA-3.1-8B、Qwen3-32B）和兩個MoE模型（GPT-OSS-20B、Qwen3-235B）。

在4090消費級顯卡服務器上，RoundPipe與當時最優秀的基線方案相比，訓練吞吐量提升了1.48倍到2.16倍。其中RoundPipe的同步版本（關閉異步優化器）也有1.15到1.63倍的提升，說明即便不用異步加速，新的流水線調度本身就帶來了顯著收益。更引人關注的是，RoundPipe是唯一能在24GB顯存的RTX 4090上完成Qwen3-235B（2350億參數）LoRA微調的系統，其他所有基線方案都因為顯存不足而失敗。

在可支持的最長序列長度方面，RoundPipe比排除Megatron-TP（該方案雖然支持長序列，但PCIe下通信開銷使其吞吐量實際上不可用）之外的最優基線方案延伸了4.7到7.3倍。這意味著研究者可以用同樣的硬件處理更長的文檔、更復雜的推理鏈，解鎖很多之前無法觸及的應用場景。

在A800數據中心顯卡服務器上的表現同樣值得關注。對于小模型（17億和80億參數），充裕顯存和高速NVLink讓數據并行方案占優，RoundPipe在這里表現與最優方案持平（0.98倍）。但對于大模型（200億參數以上），RoundPipe反而領先了1.04到1.47倍，因為它產生的通信量更少，流水線氣泡也更小。特別是在Qwen3-32B上，傳統流水線方案（Megatron-PP）直接因顯存不足崩潰退出，而RoundPipe穩定運行。

一個令人印象深刻的數據是：在所有測試模型上，RoundPipe在4090消費級服務器上的吞吐量，達到了在A800專業服務器上最優基線方案的76%以上。考慮到4090的購買價格只有A800的五分之一，這意味著同樣的預算買來的實際訓練效率已經相當接近甚至可能超越專業方案。

在擴展性測試中，RoundPipe從1張到8張顯卡的吞吐量近乎線性增長，沒有出現通常多GPU方案隨顯卡數量增加而效率下滑的現象。更獨特的是，RoundPipe支持的最長序列長度不隨顯卡數量變化——從1張到8張4090，Qwen3-1.7B都能支持73K長度的序列，LLaMA-3.1-8B都能支持49K長度，這是因為序列長度的上限由內存容量決定，而不是由顯卡間的數據分配決定，增加顯卡只會提速，不會改變內存格局。

八、與對手的橫向比較

理解RoundPipe的意義，需要稍微了解一下它與現有方案的關系。

DeepSpeed ZeRO系列（ZeRO-2、ZeRO-Infinity）和PyTorch FSDP代表了數據并行路線：把模型參數切分給所有顯卡，每張顯卡在前向和反向時通過all-gather集合通信重建完整參數。這種方法在NVLink高速互聯下運行良好，但在PCIe低帶寬下，通信開銷可以占據70%的訓練時間，幾乎把多顯卡的算力優勢消耗殆盡。

Megatron-LM的張量并行（TP）把單層的矩陣運算橫向切開，分到多張顯卡并行計算。同步通信需求極高，在PCIe下幾乎不可用。Megatron-LM的流水線并行（PP）則是把層縱向切開，與RoundPipe同屬一條技術路線，但受制于權重綁定問題，存在顯著氣泡。

Mobius是清華大學早先在此方向的工作，首次將流水線并行與CPU卸載結合，但同樣受限于權重綁定，面對不均衡模型結構時氣泡明顯。RoundPipe可以理解為對Mobius的根本性升級，從架構層面解決了權重綁定問題。

在流水線氣泡的模擬分析中，RoundPipe-sync（同步版本）相比最優基線方案減少了23%到55%的氣泡，而完整的RoundPipe（包含異步優化器）幾乎將跨迭代的氣泡清零，最終氣泡比例穩定在4.5%以下。

說到底，RoundPipe并不是一個"用更好的硬件換來更好性能"的故事，而是一個"通過更聰明的軟件設計，讓已有的普通硬件發揮出接近專業硬件的水平"的故事。它改變的不是物理法則，而是那些在原有框架下被視為"理所當然"的約束。權重必須固定在某張顯卡？未必。前向和后向必須用同樣的切分方式？也不必要。CPU更新參數時GPU必須等待？完全可以并行。每一個"必須"的背后，其實都是一個可以重新審視的假設。

對于那些希望在有限預算內開展大模型研究的團隊來說，這套方案描繪了一條清晰可行的路徑。當然，實際部署中仍有一些工程細節需要處理，比如MoE模型的專家路由在多GPU下的負載均衡，以及極長序列下內存布局的優化空間，這些都是后續工作可以進一步探索的方向。RoundPipe的代碼已經開源在GitHub上（github.com/ITcarrot/RoundPipe），并配有完整的文檔，有興趣的讀者可以通過論文編號arXiv:2604.27085查閱原始研究的全部細節。

Q&A

Q1：RoundPipe和普通流水線并行有什么本質區別？

A：普通流水線并行中，每一段模型參數永遠固定在某張特定顯卡上，無法挪動。RoundPipe利用CPU卸載的特性，讓所有參數都存在內存里，按需傳給任意一張顯卡計算，使顯卡變成可以執行任何計算任務的"通用工人"，從而打破了不同層計算量不均導致某張顯卡總是拖慢整體進度的問題。

Q2：消費級RTX 4090能訓練2350億參數的大模型嗎？

A：在RoundPipe的支持下，8張RTX 4090（每張24GB顯存，合計192GB）可以完成Qwen3-235B模型的LoRA微調，序列長度可達31K。這是因為RoundPipe將模型參數和中間激活值都存儲在容量更大的內存中，顯卡只臨時承載當前計算所需的數據，從而突破了單卡顯存的容量瓶頸。

Q3：RoundPipe的訓練結果和傳統方法一樣可靠嗎？

A：RoundPipe使用了"滯后一步"的異步優化器策略，即每輪迭代使用的參數比最新更新結果晚一步。學術界已有多項研究證明這種一步的滯后不會影響模型最終的收斂質量和性能，RoundPipe只是在已驗證的機制基礎上加入了細粒度的事件同步協議，確保數據讀寫順序的正確性，不引入額外的訓練誤差。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.