網易首頁 > 網易號 > 正文申請入駐

擴散模型綜述:方法與應用

2026-05-05 17:59:11　來源: CreateAMind

上海舉報

分享至

擴散模型綜述:方法與應用

A Survey of Diffusion Models: Methods and Applications

https://www.mdpi.com/2076-3417/16/5/2482

摘要：

擴散模型已成為最先進的生成式范式，在合成高保真圖像、視頻和音頻方面超越了生成對抗網絡（GANs）。然而，其對迭代去噪過程的依賴帶來了顯著的計算負擔與內存開銷，構成了其在資源受限的邊緣設備上部署的重要障礙。與現有廣泛涵蓋通用方法的綜述不同，本文提供了一篇聚焦性的綜述，特別強調高效與輕量級的擴散模型。我們系統性地分析了生成質量與計算成本之間的權衡，將加速技術歸類為采樣優化、架構壓縮與知識蒸餾。此外，我們探討了擴散模型與新興架構（例如 Mamba）的融合，以及其向通用世界模擬器方向的演進。本綜述旨在為"綠色人工智能"提供一條技術路線圖，彌合高端學術研究與實際現實應用之間的差距。

關鍵詞：生成式模型；擴散模型；輕量級架構；邊緣計算；擴散模型的應用；效率

引言

近年來，生成式模型在視覺與跨模態任務中進入了發展快車道。在擴散模型興起之前，主要有三種主流模型：生成對抗網絡（GANs）、變分自編碼器（VAEs）以及基于流的模型（flow-based models）。GANs 通過生成器與判別器之間的對抗博弈進行訓練，能夠生成非常清晰且逼真的圖像 [1]。然而，其訓練過程極其敏感且不穩定，常常面臨模式崩潰（mode collapse）問題，即對抗模型中的生成器只能產生有限種類的樣本，無法覆蓋完整的數據分布。VAEs 以變分推斷為基礎，通過最大化證據下界（ELBO）來學習數據的潛在表征，Kingma 與 Welling [2]。其訓練過程穩定，但由于優化目標中保真項與正則化項之間的權衡，所生成的樣本（尤其是圖像）往往顯得略微模糊。基于流的模型利用一系列可逆變換將簡單分布（如高斯分布）映射到復雜數據分布上，從而實現數據似然的精確計算 [3]。然而，其架構設計受限于可逆性要求，計算成本高昂，且在處理高維數據（如高分辨率圖像）時，性能通常遜于 GANs。這些模型共同面臨著在生成質量、多樣性與訓練穩定性之間取得平衡的挑戰。因此，研究人員亟需一種新型模型，能夠同時確保生成質量、訓練穩定性以及對數據分布空間的全面覆蓋。如圖 1 所示，與依賴對抗學習或顯式潛在映射的 GANs、VAEs 及基于流的模型不同，擴散模型通過學習逆轉一個漸進的噪聲退化過程，引入了一種范式轉變。

擴散模型的概念最初由 Sohl-Dickstein 等人 [5] 提出，其靈感來源于物理學中的非平衡態熱力學。其核心概念極為簡潔優雅：一個復雜的生成過程可以被分解為一系列極其簡單、漸進式的去噪步驟。該過程包含兩個階段：首先，前向過程是一個固定的、不可學習的程序。它模擬數據退化過程，在多個時間步長內逐步向原始數據注入少量高斯噪聲，直至數據最終轉化為純粹的標準正態分布噪聲。最后，反向過程構成了模型的核心學習組件。它試圖逆轉前向過程，從純噪聲輸入開始，通過一系列去噪步驟逐步移除噪聲，最終重建出清晰、真實的樣本。得益于這一獨特機制，擴散模型相較于其他模型具有以下優勢：首先，擴散模型展現出卓越的訓練穩定性。其訓練目標為最大似然估計或其代理目標，不涉及對抗訓練，從而使訓練過程高度穩定。其次，擴散模型能夠生成高保真度的輸出。通過多步迭代去噪，模型能夠精細地捕捉數據細節，生成具有卓越保真度與顆粒度的樣本，在多項基準測試中表現優于 GANs。最后，擴散模型展現出強大的多樣性。由于其訓練目標是擬合整個數據分布，因此不易陷入模式崩潰，能夠生成多樣化的樣本。

擴散模型憑借穩定的訓練過程與高保真生成能力已成為主流研究范式。學術界將該方法形式化為"前向加噪–反向去噪"的可逆過程。Ho 等人 [6] 基于離散馬爾可夫鏈給出了一個可操作的范式；Song 等人 [7] 則利用隨機微分方程（SDE）與概率流常微分方程（ODE）提供了連續性視角與理論統一性，而工程實踐將這兩條研究路線融合，形成了清晰的訓練與采樣流程。為降低計算門檻，Rombach 等人 [8] 將去噪過程遷移至潛在空間，并通過交叉注意力機制接入文本條件，使實際系統能夠在高分辨率下穩定運行。可控性迅速成為核心需求：用戶不僅期望模型能夠理解文本，還希望其能夠遵循結構信號，如邊緣、深度、姿態、布局，乃至音頻或參考圖像。為此，學術界提出了兩類控制機制。一類源于引導強度：Dhariwal 與 Nichol [9] 提出的分類器引導（classifier guidance）以及 Ho 與 Salimans [10] 提出的無分類器引導（classifier-free guidance），允許在保真度與多樣性之間進行權衡調節。另一類源于結構化條件：Zhang 與 Agrawala [11] 提出的 ControlNet 通過零卷積（zero convolution）將控制分支掛接至主干網絡，可組合多種條件輸入；Hertz [12] 則直接重寫交叉注意力熱力圖，以實現局部與細粒度編輯。視頻與 3D 任務進一步增加了難度，長期一致性、身份穩定性與成本控制相互制約。因此，研究人員采用"關鍵幀–插值–超分辨率"的級聯方案，并利用 DPM-Solver 與知識蒸餾技術減少采樣步數。在復現實驗中，研究團隊通常將采樣步數從 50–100 步縮減至 20–30 步，并通過 LoRA 或適配器（adapters）部署多種風格與條件。這些實踐可顯著降低推理延遲，但也帶來了細節丟失與外觀僵化等副作用。

1.1. 與現有綜述的關系及貢獻

盡管 Yang 等人 [13] 與 Croitoru 等人 [14] 等綜合性綜述已對擴散模型的整體格局提供了出色的概述，但它們主要聚焦于生成質量與廣泛的應用場景。隨著擴散模型從學術研究向工業部署過渡，性能與資源消耗之間的權衡變得日益關鍵。本文的獨特之處在于優先關注擴散模型的效率與輕量級部署。我們的主要貢獻體現在三個方面：

我們提供了加速技術的專門分類體系，將其歸類為算法求解器、架構壓縮與系統級輕量級范式。
我們彌合了高端基礎模型與邊緣端應用之間的差距，強調了在移動設備與嵌入式設備上部署擴散模型的策略。
我們對新興架構（例如 Mamba/狀態空間模型）及其與大語言模型（LLMs）的融合提供了更新的視角，超越了傳統以 U-Net 為中心的觀點。

1.2. 論文組織結構

本綜述的其余部分旨在引導讀者從理論基礎走向實踐實現與未來趨勢。第 2 節統一了擴散模型的理論基礎，整合了概率馬爾可夫鏈與連續微分方程兩種視角。基于這些理論支撐，第 3 節剖析了關鍵方法論，包括主干架構的演進與可控生成機制。隨后，第 4 節探討了不斷擴展的應用領域，涵蓋從二維圖像到復雜的三維、視頻與音頻內容。本綜述的核心組成部分是第 5 節，該節對高效與輕量級擴散模型進行了深入分析，全面詳述了旨在降低計算開銷的量化、剪枝與蒸餾技術。在完成技術分析之后，第 6 節探討了相關的社會與倫理挑戰，而第 7 節則提出了未來的研究方向。最后，第 8 節給出總結性論述。

擴散模型的基本原理

整體概率框架如圖 2 所示，其中反向過程 p θ 通過迭代移除噪聲以生成逼真樣本。

2.1. 前向過程

2.2. 反向過程

2.3. 訓練目標與損失函數

3.方法學

3.1. 基礎框架與架構

3.1.1. DDPMs（去噪擴散概率模型）

2020年，Ho 等人 [6] 提出的 DDPM 標志著現代擴散模型的一個里程碑。它不僅提出了前述簡潔的損失函數，還采用了 Ronneberger 等人 [15] 提出的 U-Net 架構作為去噪網絡。U-Net 的編碼器–解碼器結構和跳躍連接使其 exceptionally（極其）適合處理圖像中的局部和全局信息，從而能夠從噪聲圖像中有效地恢復結構。DDPM 在圖像生成任務中取得了顯著成果，其輸出質量首次在 CIFAR-10 等數據集上超越了當時最先進的 GAN 模型，正式宣告了擴散模型時代的黎明。早期的 DDPM 主要依賴卷積 U-Net 架構。然而，大約在 2022 年，擴散模型的核心架構經歷了從 U-Net 到 Transformer 的深刻轉變。以 Peebles 和 Xie [16] 提出的 Diffusion Transformer (DiT) 為例，模型將圖像、視頻和其他數據視為時空補丁（spacetime patches）的序列，利用 Transformer 的長程依賴建模能力來學習復雜的時空關系。

3.1.2. 從離散馬爾可夫鏈到連續 SDE 和 ODE

當將擴散過程寫為 SDE 時，有一個重要的推論：只要知道每個噪聲尺度的分數（scores），就可以寫出一個逆時間 SDE，通過沿其模擬，就可以回到數據分布 [7]。同一組邊緣分布也對應一個確定性概率 ODE。如果使用 ODE，可以使用更大的步長和高階數值積分器，從而減少函數評估次數。EDM 清楚地表明，使用 Heun 二階方法，并配合適當的 sigma 采樣分布和損失權重，可以提高穩定性和速度 [18]。這引出了一個問題：SDE 的“預測器–校正器”（predictor-corrector）與 ODE 的“高階求解器”（higher-order solver）哪個更好？實踐表明，如果目標是感知質量和更少的生成步數，結合 DPM-Solver 或 Heun 等的概率 ODE 更合適；但如果目標是嚴格的似然評估或需要注入隨機性，SDE 和 PC 采樣更靈活，而上述離散方法側重于實際實現。Song 等人 [20] 建立了嚴格的理論基礎，他們證明了隨著時間步數趨于無窮大 ( T → ∞ )，離散擴散過程收斂于連續時間隨機微分方程 (SDE)。前向過程可以建模為一個 It? 過程：

如圖 3 所示，該常微分方程（ODE）在數據分布與潛在噪聲之間建立了一種平滑且雙射的映射。這一視角不僅統一了去噪擴散概率模型（DDPMs）與基于分數的模型，而且還使得能夠使用高級數值求解器（例如 DPM-Solver [23]）進行快速采樣，與傳統方法相比，顯著減少了所需的推理步數。

3.1.3. 主干架構與條件注入

目前，U-Net 仍然是擴散模型中的主導主干架構。它具有兩個實際優勢：多尺度特征和跳躍連接能夠保留局部細節，同時卷積的感受野和計算模式對高分辨率圖像非常友好。擴散模型版本的 U-Net 通常包含時間嵌入（正弦位置編碼加感知機）、歸一化層（通常使用組歸一化）以及交叉注意力層（用于接收文本或其他模態信息）。許多項目還利用通道的縮放和偏置參數，類似于 FiLM 技術，將條件注入到每一層歸一化中 [8,15]。Transformer 主干架構帶來了另一種平衡。DiT 將圖像分塊與位置和時間標記相結合，將去噪過程視為序列建模；U-ViT 和 MDT 分別證明了長跳躍連接和掩碼訓練有助于提升穩定性 [24,25]。在實際項目中，Transformer 能夠實現更好的可擴展性和分布外泛化能力，但代價是二次復雜度和內存開銷。因此，許多團隊在處理高分辨率任務時以 U-Net 為基礎，而在多模態對齊或全局建模的均衡設計中采用 Transformer，這在視頻和 3D 任務中更為常見。從可控性的角度來看，主干架構中最常用的三個關鍵機制是：交叉注意力（用于接入文本或語義序列）、歸一化調制（利用條件生成的縮放/偏置參數來控制通道）以及旁路控制分支（例如 ControlNet 的零卷積注入）。這三個關鍵機制的選擇取決于條件的形式：例如，語義類條件更適合交叉注意力，結構類條件（邊緣、深度、姿態）更適合空間對齊和旁路特征，而混合類條件通常結合使用 [11]。

3.2. 采樣加速與效率

為了提供對主干架構進展的結構化概述，我們在圖 4 中展示了架構的演進過程，該圖描繪了從傳統的基于 CNN 的 U-Net 和基于 Transformer 的 DiT 向新興的 SSM 框架的轉變。

3.2.1. 速度與效率的突破

緩慢的采樣速度構成了早期擴散模型（如 DDPM）的核心限制。Song [7] 提出的去噪擴散隱式模型（DDIM）代表了該領域最具影響力的工作之一。DDIM 表明，支撐 DDPM 的馬爾可夫鏈假設并非必不可少，其通過非馬爾可夫前向過程實現了更快的采樣。它引入了一個額外的參數 η；當 η = 1 時，采樣過程等價于 DDPM。當 η = 0 時，它變為一種稱為隱式模型的確定性生成過程。這使得 DDIM 僅需數十步即可生成與 DDPM 千步采樣質量相當或更優的圖像，生成速度提升了 10 至 50 倍，顯著增強了擴散模型的實用性。盡管 DDIM 等技術實現了初步加速，但跨越數十步的迭代對于實時應用而言仍然過于遲緩。近期研究的一個核心焦點是將生成速度推向極限，通過單步或少步過程實現高質量輸出 [26]。Kim 等人 [26] 提出了一種稱為一致性模型（Consistency Models）的訓練范式，旨在直接學習從任意噪聲點到生成樣本的一致性軌跡的終點。通過一種稱為一致性蒸餾（Consistency Distillation）的技術，訓練好的多步擴散模型可以被蒸餾為能夠在單步內生成高質量圖像的模型。類似地，流匹配（Flow Matching）的理論框架將擴散過程重新表述為常微分方程（ODE）。它專注于學習一條從噪聲分布到數據分布的“更直”的路徑，從而規避了傳統擴散模型固有的彎曲、低效的采樣軌跡。通過學習這種優化的映射，修正流模型能夠在最少步數內實現高質量生成，同時保持理論上的優雅性與可解釋性 [27]。這些技術的成熟預示著擴散模型將徹底擺脫“遲緩”的標簽，將其應用從離線內容創作擴展到交互式設計、實時渲染乃至更廣闊的領域。同年，Wang 等人 [28] 提出了一種名為 Diffusion-GAN 的新型 GAN 框架。該方法利用預訓練的擴散模型作為“教師”，通過對抗訓練將教師模型的多步生成能力蒸餾至單步生成器（即“學生”模型）中。該方法在 ImageNet 等基準測試上取得了出色的單步 FID 分數，標志著單步生成質量邁上了新高峰。

3.2.2. 采樣與加速

DDIM 將反向過程表示為確定性映射，使得僅需十幾步即可獲得良好的結果 [29]。隨后，PNDM、DEIS、EDM 以及 DPM-Solver 系列將常微分方程的數值方法引入擴散采樣中，減少了誤差累積并降低了所需步數 [30,31]。這些方法逐漸成為了視頻與高分辨率生成的通用加速器。當單步生成仍然較慢時，研究人員采用蒸餾方法，通過逐步合并兩步并循環多輪，將 50–100 步縮減至個位數 [10]。盡管引導蒸餾（guided distillation）也可行，但它需要處理與引導強度和分布漂移相關的問題 [32]。在多模態場景中，一種常見做法是先使用高階求解器將步數減少至 10–20 步，然后再進行蒸餾，這可以顯著降低質量損失。一些研究提出將迭代過程壓縮至單步或少步的一致性模型中，該方向在圖像任務中已取得可行結果，但針對大分辨率與視頻的最佳實踐仍在演進中。

3.2.3. 訓練目標、采樣間隔與權重

許多項目已將所有時間步的損失權重改為根據信噪比（SNR）或 sigma 分布進行采樣。這是因為噪聲極高或極低的樣本要么太難、要么太易，而平均權重會導致網絡在不相關的區間浪費學習能力。最小 SNR 加權與 EDM 的損失公式均在不同數據集上展現出一致的改進 [19]。步長與時間步的選擇也具有顯著影響。在大多數實踐中，前密后疏的步長分配更為穩定；在 ODE 求解器中，末端密集段可以減少最終偽影；在 SDE 的 PC 采樣中，校正步數不宜過多，否則時間成本將迅速上升 [18]。這些經驗看似零散，但在多模態可控性與視頻編輯中，它們往往決定了能否在 10–20 步內達到標準。在實現層面還有兩點常被忽視。第一點是指數移動平均（EMA）權重幾乎是一個必要條件，尤其在少步采樣與蒸餾場景中。第二點是混合精度與梯度裁剪可顯著減少 NaN（非數字）與溢出問題，尤其在強引導與大批量設置中。這些實踐并非算法層面的貢獻，但它們往往決定了復現過程是否順利。

3.3. 可控生成機制

在本節中，我們回顧不同的可控生成機制。表 1 展示了可控生成機制的分類。

3.3.1. 條件生成與引導

3.3.2. 形式與目標

可控性并非簡單地在模型外部添加另一層規則；相反，它將約束條件、偏好和先驗知識集成到生成過程本身之中。語義、空間、身份和風格是四種常見的高頻需求。它們對應于不同的信息形式，并決定了不同的控制接口。

首先是語義控制。模型需要理解文本或類別，并在生成過程中保持語義一致性[9,17]。屬性不匹配和目標缺失是常見的失敗模式，尤其在包含多個實體和長描述的場景中[37]。

其次是空間控制，包括布局、分割、邊緣、草圖、深度和姿態，其要求明確“何處出現何物”。這些條件通常以圖像或網格的形式給出[11]。對齊精度與局部細節是空間控制的關鍵點[38]。

然后是身份控制，它要求綁定到特定的個體或對象，并在新場景中保持其外觀與幾何結構。這些方法通常使用少量圖像進行微調或學習新的詞嵌入[34,35]。過擬合與語言漂移是身份控制的兩大主要風險[39,40]。

最后是風格控制，用戶希望在不破壞布局與主體的前提下遷移材質、筆觸或色調。常見實現包括能量引導、潛在空間方向調整和小參數適配[41,42]。

要判斷某項生成是否具備可控性，通常需要同時關注三個關鍵點：文本或條件的對齊程度、時空穩定性，以及人眼的偏好與細節感知。單一指標很少能解釋整個問題，這也是為什么學術界逐漸采用將指標組與人工評估相結合這一實踐的實際原因[43]。

3.3.3. 控制機制

研究人員大致將控制機制分為三類。第一類是引導（guidance），第二類是條件注入（condition injection），第三類是對注意力與特征的顯式重寫。此外，研究人員還提出了個性化與低成本的微調方法。

首先是引導。Dhariwal 與 Nichol 提出了分類器引導（classifier guidance）[9]，作者提供了一個對噪聲魯棒的分類器以提供梯度，并將該梯度添加到分數函數中，從而獲得更強的條件對齊能力。無分類器引導（Classifier-Free Guidance）源于 Ho 與 Salimans 的方法，通常被稱為無分類器引導。作者僅訓練一個網絡，在訓練期間以一定概率移除條件，同時線性組合條件輸出與無條件輸出，以平衡保真度與多樣性。

其次是條件注入與控制分支。Zhang 與 Agrawala [11] 提出了 ControlNet，作者將主干網絡中復制的卷積模塊作為控制分支，并通過零卷積（zero convolution）將分支特征注入主干網絡，以支持邊緣、深度、法線、分割、姿態等多種條件輸入。該技術有助于在不破壞原始能力的前提下使訓練更加穩定。文本條件則采用交叉注意力機制。Radford 等人 [44] 提出了 CLIP，作者將文本與圖像嵌入到同一空間中，而潛在擴散模型則將文本特征作為鍵/值（Keys/Values）。U-Net 的中間特征作為查詢（Queries），從而實現語義對齊。

然后是對注意力的控制與無需訓練的編輯（training-free editing）。Hertz 等人 [12] 提出了用于圖像編輯的交叉注意力控制（cross-attention control）概念，作者直接替換或重寫注意力熱力圖，以實現無需修改權重的細粒度編輯，該方法可用于結構保持與風格替換。Meng 等人 [45] 提出了 SDEdit，作者首先向輸入添加適度噪聲，然后沿擴散軌跡進行去噪，從而在修復與風格化任務中獲得穩定結果。

最后是個性化與參數高效微調。Ruiz 等人提出了 DreamBooth [34]，作者將一個新概念通過同一詞語綁定到少量圖像上，保留主體的形狀與紋理，并使用文本控制場景。Gal 與 Alaluf 提出了文本反轉（Textual Inversion）[35]，作者僅優化一個新詞的嵌入向量，使少量圖像能夠學習對象風格或特征。Hu 等人 [36] 提出了 LoRA，作者采用低秩分解進行微調，節省內存與參數，該方法已廣泛應用于圖像、視頻與音頻擴散模型的適配與部署。Tewel 等人 [40] 提出了 Perfusion，作者使用極小的秩 -1 更新來鎖定概念與風格，以維持合成質量并減少遺忘。

3.3.4. 評估與基準測試

在通用質量指標方面，FID（Fréchet Inception Distance）和 KID（Kernel Inception Distance）用于衡量整體分布的接近程度，而 IS（Inception Score）更側重于樣本多樣性 [43]。在對齊與可控性方面，CLIPScore 和文本檢索準確率可以反映語義匹配程度，而區域控制可以使用掩碼內的 CLIP 相似度以及目標檢測或分割的準確率進行評估。對于姿態與深度控制，可以使用關鍵點誤差和深度相關性進行評估。對于視頻，需要 FVD（Fréchet Video Distance）和幀間一致性，可以使用閃爍率（flicker rate）和光流畸變誤差進行評估 [46]。對于 3D 與多視角一致性，可以使用 Chamfer 距離、IoU（交并比）和新視角一致性進行評估 [47]。在人工評估方面，研究人員傾向于同時使用雙盲偏好測試和多維問卷來評估對齊度、細節、穩定性和整體偏好，這在風格化與編輯任務中尤為重要 [17,48]。

應用

在本節中，我們回顧擴散模型的一些重要應用。表 2 總結了代表性擴散模型的應用領域。

4.1. 圖像恢復

如果在退化過程中出現卷積模糊、下采樣或掩碼缺失，可以將一致性約束納入采樣循環中，使觀測值與先驗共同決定軌跡。DDRM 使用預訓練的去噪網絡作為先驗，并為線性逆問題提供無監督后驗采樣，證明了數據一致性與先驗去噪的可行性 [18]。DDNM 更進一步，將重建分解為由觀測值決定的值域部分和由先驗完成的零空間部分，無需再次訓練模型。零樣本方法能夠處理超分辨率與去模糊問題 [56]。ILVR 通過低頻替換固定結構對齊，允許高頻細節由先驗填充 [57]。如果任務更側重于編輯而非嚴格求解，SDEdit 會在采樣中期注入弱噪聲，并沿引導提示收斂，從而無需重新訓練模型即可實現穩定修改 [45]。對于需要統一多任務的場景，Palette 將著色、恢復與解壓縮結合到一個條件框架中，展示了一個擴散模型對應多種恢復任務的可能性 [17]。GDP 將生成先驗顯式建模為可采樣的后驗分布，適應線性、非線性與盲退化，涵蓋從去噪到多退化增強的廣泛需求 [55]。從實際觀察來看，訓練好的通用圖像先驗（例如基于 LDM 的權重）在遷移到存在分布偏移的數據（如遙感與醫學數據）時，可能會表現出風格偏差或過度細節想象。在此類情況下，將一致性步驟前移并降低后期引導的強度，通常能在保留 LPIPS 視覺優勢的同時，穩定 PSNR 或 SSIM 結果。在評估指標方面，恢復任務仍依賴 PSNR 與 SSIM，而 LPIPS 與 FID 則用于展示感知質量與分布接近程度 [43,58]。

4.2. 二維圖像生成

文本到圖像生成是擴散模型最廣受認可的應用。Ramesh 等人 [49] 開發的 DALL-E 2、Saharia 等人 [17] 提出的 Imagen，以及 Rombach 等人 [8] 引入的 Stable Diffusion 等模型，能夠生成與用戶提供的任何文本描述相匹配的詳細且富有創意的圖像。這些模型通常采用預訓練的文本編碼器（例如 CLIP 的文本編碼器）將輸入文本轉換為嵌入向量。該向量隨后通過交叉注意力機制作為條件輸入注入 U-Net，從而引導圖像生成過程。該技術的進步不僅改變了數字藝術與內容創作的格局，也為設計、廣告和娛樂行業提供了強大的工具。

首先是從類別到圖像的轉換。類別條件擴散模型是通用圖像生成的基礎。ADM 與 -G 通過在 CIFAR 和 ImageNet 數據集上采用分類器引導與架構修改，實現了與 GAN 相當的 FID 與 IS 指標 [9]。CDM 采用級聯生成方式逐步提升分辨率，使細節與結構更加穩定 [10]。在主干架構層面，LDM 將去噪過程遷移至 VAE 潛在空間，顯著降低了內存與算力需求 [8]。DiT 與 MDT 則展示了 Transformer 在長程依賴建模與可擴展性方面的潛力 [16]。在實際訓練中，CFG 權重、步數與調度之間的耦合性很強。較高的 CFG 傾向于提升類別對齊度與清晰度，但會壓縮多樣性，這在少步推理中尤為明顯 [9]。因此，許多實驗將 CFG 設為隨時間變化的曲線，并加密最后幾步的求解精度，以減少尾部過沖偽影，并與 DPM-Solver 的使用方式對齊 [18]。

其次是從文本到圖像的轉換。文本條件生成已形成結合交叉注意力、潛在空間與引導的標準范式。GLIDE 與 Imagen 展示了深度語言表征對語義對齊的助益 [9,17]。VQ-Diffusion、Parti 與 Muse 則從離散令牌化、自注意力擴展與掩碼建模等角度呈現了不同的效率方案 [59–61]。盡管文本很重要，空間約束同樣關鍵。GLIGEN 在大型模型上集成文本邊界框，使物體放置具備可控性 [62]。ControlNet 利用可訓練的旁路分支與零卷積，將邊緣、深度、姿態等條件注入每一層，實現文本與結構的聯合控制 [11]。T2I-Adapter 提供了更輕量的適配接口，便于多條件組合 [33]。這些方法顯著降低了復雜場景（如多物體、多關系）中屬性不匹配與目標遺漏的概率 [63]。

安全與對齊也是實驗必須考慮的維度之一。Safe Latent Diffusion 與自蒸餾安全訓練展示了緩解不當內容生成的方法，但模型–令牌–過濾的三重組合仍是主流方案 [64]。在評估方面，CLIPScore 與文本檢索準確率的監測在語義上保持一致。FID 與 KID 反映分布質量。人工評估則負責對"是否可信"等主觀維度進行評判，三者結合能更好地覆蓋真實使用場景 [43]。

4.3. 三維模型/內容生成

擴散模型也被用于從文本或二維圖像生成三維模型。Poole 等人 [50] 提出了一種稱為分數蒸餾采樣（Score Distillation Sampling, SDS）的技術。其核心概念是利用預訓練的二維文本到圖像擴散模型作為知識源。在三維表征（例如來自 NeRF 的渲染視圖）上，SDS 計算一種損失函數，將二維擴散模型中編碼的知識蒸餾至三維模型中。這引導三維模型朝著與文本描述一致的優化方向演進。因此，無需任何三維訓練數據即可從文本生成高質量三維資產，為游戲開發、虛擬現實（VR）與元宇宙構建提供了全新路徑。

三維數據稀缺，直接在體素、點云與網格上應用擴散模型會導致極高的計算成本。SDS 與 SJC 提供了解決方案，即將二維擴散的噪聲殘差或雅可比鏈反向傳播至三維表征（如 NeRF 或 SDF），使渲染的多視角圖像逐漸逼近條件文本 [50]。Magic3D 采用稀疏網格與可微分渲染，分粗到細兩階段提升速度與細節 [51]。Fantasia3D 解耦幾何與外觀，并引入法線與材質建模，使材質真實感更佳 [42]。

單圖像到三維的轉換同樣重要。Zero-1-to-3 在相機條件上對二維擴散模型進行微調，用于新視角合成，并進一步驅動三維優化 [29]。在多視角一致性方面，SyncDreamer 學習跨視角的同步特征，與二維文本對及三維資產聯合訓練以增強一致性 [65]。LAS-Diffusion 以 SDF 為中心，通過局部注意力與有符號距離場表征提升可控性與細節 [66]。

三維評估通常聚焦于 Chamfer 距離、體素 IoU 與新視角一致性，而 GSO 等數據集提供了客觀標準 [47]。基于 SDS 的優化仍存在成本與穩定性問題，例如因文本或風格差異導致局部最優或視角偽影。這些問題可通過更優的渲染方法與幾何正則化逐步緩解。

4.4. 視頻生成與編輯

在圖像生成的基礎上，將擴散模型擴展至時間維度即可實現視頻生成。諸如 Sora（OpenAI）、Lumiere（Google）、Pika 和 Runway 等模型已展示出生成長達一分鐘、具有高分辨率、內容連貫且動態流暢的視頻的能力。其核心挑戰在于有效建模時空一致性。一種常見方法是在 U-Net 架構中融入時間模塊，例如 3D 卷積或時間注意力機制，從而同時處理空間與時間信息，確保生成視頻幀之間的連貫性。該技術預示著視頻制作、電影特效與虛擬世界構建領域的范式轉變。

Li 等人 [38] 詳細介紹了一種稱為"Animate Anyone"的方法，該方法利用擴散模型從靜態參考圖像與運動序列中生成高度保真且時間連貫的角色動畫視頻，展示了擴散模型在生成復雜動態內容方面的先進能力。

視頻生成的難點在于幀間一致性與運動可解釋性。由于數據稀缺，許多系統選擇將圖像先驗與輕量級時間層相結合的方法。MCVD 與 FDM 將擴散應用于預測與插值等條件任務，驗證了其在中等與短序列上的可行性 [67,68]。對于文本到視頻生成，Make-A-Video 與 Imagen Video 均采用級聯方法：先生成低分辨率基礎序列，再進行空間或時間超分辨率處理，顯著提升了時間一致性 [69]。Dreamix 展示了視頻編輯的路徑，利用目標文本與低分辨率參考對視頻擴散模型進行微調，在保持外觀的同時改變語義 [70]。Latent Video Diffusion 將 LDM 的潛在空間方法遷移至視頻領域，節省內存并使項目更易于部署 [71]。

條件控制在視頻中同樣重要。VideoComposer 將深度、草圖、光流等多種視覺條件集成到 U-Net 與潛在空間中，實現精細操控。ControlVideo 將 ControlNet 的空間控制擴展至時間域且無需訓練，通過跨幀交互減少抖動 [72]。實踐表明，共享初始噪聲、跨幀注意力以及"關鍵幀–插值–細化"流程有助于緩解閃爍問題。然而，身份漂移與長程依賴仍是視頻生成中持續涌現的挑戰。

評估通常采用 FVD 與 CLIP-SIM，觀察人眼是否感知到變化，因為純客觀分數無法完全捕捉閃爍與穩定對比的主觀感受 [46]。

4.5. 音頻生成：從語音到音樂

盡管圖像與視頻生成聚焦于空間結構，音頻生成則需應對高時間分辨率一維信號的復雜性。早期基于擴散的音頻模型，如 DiffWave [54] 與 WaveGrad [73]，專注于神經聲碼器的作用，從以文本或語言特征為條件的梅爾頻譜圖中生成原始波形。這些模型在推理速度與合成質量方面優于 WaveNet 等傳統自回歸模型。

然而，從零開始生成復雜音頻（如音樂或環境音）需要對長程依賴進行建模。受 Stable Diffusion 成功的啟發，AudioLDM [53] 將潛在擴散方法引入音頻領域。通過使用 VAE 學習梅爾頻譜圖的連續潛在表征，并將擴散過程以對比語言–音頻預訓練（CLAP）嵌入為條件，AudioLDM 實現了最先進的零樣本文本到音頻生成。這種"頻譜圖即圖像"的范式使模型能夠利用圖像修復技術進行音頻恢復與風格遷移。

最近，研究重點已轉向長格式音樂生成與高保真文本到語音（TTS）。MusicLM [52] 將音頻生成視為分層序列到序列建模任務，確保數分鐘音樂的連貫性。同時，像 Stable Audio 這樣的模型通常利用專為音頻設計的下采樣因子自編碼器來處理極高的采樣率，從而在局部紋理質量與全局音樂結構之間取得平衡。

高效與輕量級擴散模型

盡管擴散模型具有卓越的生成質量，但其在現實場景中的部署往往受到兩個固有瓶頸的阻礙：迭代去噪過程的高計算成本，以及重型主干網絡帶來的巨大內存占用。這些限制對于邊緣設備與實時應用而言尤為嚴苛。因此，"綠色擴散"——即在不犧牲保真度的前提下追求效率——已成為一個關鍵的研究前沿。

在本節中，我們對輕量級擴散模型的最新進展進行全面綜述。我們將這些加速技術歸類為三大戰略支柱：

采樣加速：聚焦于先進的常微分方程（ODE）求解器與調度策略，旨在將推理步數從數百步減少至數十步甚至個位數。
架構壓縮：采用網絡剪枝、量化與結構搜索等技術，以最小化參數量與內存使用。
知識蒸餾：利用教師–學生框架，將多步擴散軌跡壓縮至更少的步驟，從而實現快速推理。

為了對這些效率技術形成結構化理解，我們在圖 5 中呈現了輕量級策略的分類體系，該體系將當前方法歸類為采樣加速、架構壓縮與數值優化。以下子節將討論表 3 中總結的這些方法論如何應對計算效率與生成性能之間的權衡。

5.1. 結構效率與主干優化

實現輕量化的最直接途徑是重構腫的 U-Net 主干網絡。研究表明，通過引入混合架構或專用卷積，可以在保持生成質量的同時顯著降低計算負載。Liu 與 Sun [74] 在通用圖像生成背景下提出了 MobileDiT 架構。他們未使用傳統卷積，而是選擇 MobileViT 模塊作為核心組件。該設計十分巧妙：利用輕量級卷積處理局部細節，并利用 Transformer 捕捉全局結構。為防止訓練崩潰，他們還引入了 adaLN-Zero（自適應層歸一化）模塊以穩定信號。結果令人印象深刻：該模型在 ImageNet 上取得了 2.15 的 FID 分數，參數量極低，且在生成效果上甚至超越了參數量更大的 StyleGAN-XL。

針對性結構剪枝在特定任務中更為激進。Cai 等人 [75] 針對偽裝目標檢測開發了 L-DiffCOD。他們采用 PVTv2-B1 作為編碼器主干，并將所有標準卷積替換為深度可分離卷積。該操作使浮點運算次數（FLOPs）降低了 47.45%，參數量減少了 75%，從而能夠在嵌入式設備上實時識別偽裝目標。這一點也在網絡安全領域得到了 Li 等人 [79] 的驗證。為了在邊緣節點合成惡意流量數據，他們同樣采用了深度可分離卷積技術。實驗數據表明，該模型的乘加運算次數（MACs）僅為基線模型的 20.39%，但仍能訓練出準確率達 92.34% 的分類器，這證明了輕量級模型足以捕捉復雜的流量特征。

在遙感圖像超分辨率方面，An 等人 [78] 完全摒棄了 U-Net。他們設計的 LWTDM 模型采用了一種基于交叉注意力的高效編碼器–解碼器結構。通過引入輕量級嵌入模塊，他們避免了深層網絡的堆疊。為進一步加速，他們結合 DDIM 跳步采樣將推理步數壓縮至 200 步以內，滿足了衛星數據處理的時效性要求。這些結構優化在大幅降低參數量與浮點運算次數的同時，有效保持了生成質量與任務精度，為擴散模型在移動端、衛星及嵌入式設備等資源受限環境中的實時部署奠定了基礎。

5.2. 量化與頻域學習

當結構優化達到瓶頸時，降低數據精度或轉換處理域是另一條有效路徑。在語義通信中，Grassucci 等人 [76] 面臨嚴重的帶寬限制。他們提出了 Q-GESCO 框架，采用訓練后量化（PTQ）將模型權重壓縮至 8 位。為了解決低位寬引起的累積誤差，他們創新性地使用了噪聲感知訓練與時間步校準。這使得內存占用減少了 75%，且接收端重建的圖像在存在信道噪聲的情況下依然保持清晰。

自動駕駛領域的 FedDifftraj 模型由 Gao 等人 [80] 提出，專注于數據傳輸。在聯邦學習框架中，車載端的模型在上傳至服務器前進行量化。這不僅節省了寶貴的車聯網（IoV）帶寬，還通過參數模糊化增強了用戶軌跡隱私的保護。

對于超大型醫學圖像，Wilms 等人 [81] 通過改變“戰場”避免了算力不足的問題。他們使用小波包變換處理 3D 腦部 MRI。該方法無損地降低了圖像的空間分辨率，并將計算轉移至頻域。這使得原本需要高端集群訓練的 3D 條件擴散模型能夠在單塊消費級 GPU 上運行，并生成可解釋的“反事實圖像”以輔助醫生。

在本節中，我們探討了架構優化之外的兩條關鍵路徑：利用訓練后量化降低數值精度，可大幅減少顯存占用與通信帶寬，并增強聯邦學習中的隱私保護。同時，采用小波包變換等信號域轉換方法降低高維數據的空間分辨率，使得在消費級硬件上訓練大規模 3D 醫學成像模型成為可能。這些策略證明，在數值與頻域層面的優化是突破邊緣計算資源瓶頸的有效手段。

5.3. 生成增強的輕量級范式

這是一種系統級的輕量化方法：利用強大的擴散模型在云端創建數據，賦能終端的小型模型。Tao 等人 [77] 在指靜脈識別中展示了這一思路。指靜脈數據通常難以獲取，導致識別模型容易過擬合。他們利用擴散模型生成海量逼真的指靜脈圖像進行數據增強。最終，在終端部署了一個僅含 2.15M 參數的雙分支輕量級網絡。該網絡集成了 E-MHSA（改進的多頭自注意力）模塊，以極低的算力實現了高精度識別。

Li 等人 [82] 在戰場意圖識別中也采用了這一策略。他們專門開發了基于 Wasserstein 距離的 WDiffusion 模型，用于生成多元時間序列數據。這些合成數據被用于訓練一個極簡的 GRU（門控循環單元）網絡。該方法表明，高質量的合成數據可以彌補輕量級模型容量小的不足，使其泛化能力顯著提升。

Wang 等人 [83] 在病理學領域使用輕量級模型進行圖像修復。他們構建了一個專門設計的輕量級 Transformer 去噪網絡，用于去除組織學圖像中的折疊與氣泡偽影。與傳統 CNN 相比，Transformer 能更好地理解細胞的全局排列，從而以更少的參數實現更高質量的圖像恢復。

在本節中，我們闡述了系統級的輕量化策略，即利用擴散模型生成高質量合成數據以解決數據稀缺問題，進而訓練并賦能端到端的極簡模型（如 GRU 或輕量級 Transformer）。通過“數據轉化為算力”的理念，該范式證明海量逼真的合成樣本能夠彌補輕量級網絡容量小的短板，使其在指靜脈識別與戰場意圖判斷等任務中，以極低的參數量實現出色的泛化能力與識別精度。

挑戰與局限性

盡管擴散模型已徹底改變了生成式人工智能，但其從學術研究向普適化部署的過渡也暴露出關鍵瓶頸。這些挑戰不僅僅是工程層面的障礙，更涉及計算效率、法律框架與社會倫理之間的復雜交織。本節將對這些局限性的三個主要維度進行批判性分析。

6.1. 計算成本與環境可持續性

與單次前向傳播的 GAN 或 VAE 相比，擴散模型最顯著的技術缺陷在于其固有的迭代推理過程，該過程需要評估神經網絡數十至數百次以求解概率流常微分方程（ODE）或隨機微分方程（SDE）。盡管快速求解器（例如 DPM-Solver）與蒸餾技術的最新進展已緩解了這一問題，但高分辨率生成仍然計算成本高昂，嚴重阻礙了視頻會議或交互式游戲等對毫秒級延遲有強制要求的實時應用。

這種計算負擔不僅限于延遲問題，更引發了深刻的"綠色人工智能"困境：眾所周知，基礎模型的訓練會排放大量二氧化碳，但推理階段的累積能源成本卻常被忽視，且更具隱蔽性。正如 Luccioni 等人 [84] 所強調的，隨著這些模型被部署至數百萬用戶，日常生成任務的能源消耗遠超初始訓練成本，對全球可持續發展目標構成了嚴峻挑戰。

此外，微調甚至部署最先進模型所需的嚴格硬件條件造成了顯著的"算力鴻溝"，實際上將研究能力集中于資金充足的行業實驗室，而邊緣化了無法獲得高性能 GPU 基礎設施的學術界與獨立研究者。

6.2. 知識產權、版權與數據來源

擴散模型的訓練范式以不加區分地抓取網絡上海量圖像為特征，這引發了關于知識產權（IP）法與創作者權利的深刻危機。盡管支持者常以"合理使用"（fair use）為辯護，聲稱這些模型學習的是類似于人類靈感的抽象表征，但實證證據呈現了相互矛盾的現實：具體而言，Carlini 等人 [85] 表明，擴散模型傾向于記憶并復現訓練數據。這種現象通常由對重復樣本的過擬合驅動，導致生成受保護作品的近乎相同副本，從而構成潛在的版權侵權。

除了精確復制帶來的法律復雜性外，該技術還通過風格模仿造成重大經濟風險：模型能夠高保真地模仿在世藝術家的獨特美學風格，使用戶無需向原創者支付報酬即可生成無限衍生作品。

因此，學術界正積極開發技術對策，范圍涵蓋從對抗性防御工具（如 Glaze [86]——通過施加人眼不可見的擾動來干擾風格學習）到數據來源標準（如 C2PA 與不可見水印）；然而，這些歸屬方法在面對常見變換時的魯棒性仍是一個未解決的挑戰。

6.3. 偏見、安全與濫用

由于擴散模型本質上是對海量訓練語料庫條件分布的近似，它們不可避免地會繼承并常常放大未加篩選的互聯網內容中固有的偏見與毒性。這一現象在社會刻板印象的放大中尤為明顯：例如，Bianchi 等人 [87] 表明，文本到圖像模型經常表現出嚴重的職業性別偏見（例如，默認將高地位職業描繪為男性）與種族同質化，從而在媒體與廣告部署中延續表征性傷害。

此外，潛在危害不僅限于被動偏見，更延伸至主動的惡意利用。在缺乏魯棒安全防護的情況下，這些生成工具可能被武器化，用于生成不適合工作場合（NSFW）的圖像、仇恨言論以及高度逼真的深度偽造（Deepfakes），這些內容通過虛假信息活動對政治穩定構成重大威脅，并通過非自愿內容侵犯個人隱私。

應對這些風險呈現出復雜的安全–效用權衡：盡管當前的緩解策略依賴于訓練數據過濾或事后輸出檢查（例如基于 CLIP 的安全過濾器），但這些措施在面對對抗性攻擊時仍然脆弱。復雜的"越獄"提示詞往往能夠繞過限制，而過于激進的過濾則可能帶來"對齊稅"（alignment tax）——削弱模型的多樣性，并使其對良性請求失去響應能力。

未來研究方向

擴散模型的快速演進預示著其正從專用圖像生成器向通用人工智能的基礎構建模塊轉變。我們確定了三個將塑造下一代生成式模型的關鍵方向。

7.1. 可擴展架構：從 Transformer 到狀態空間模型

盡管擴散 Transformer（DiT）已成功取代 U-Net 成為高保真生成的主力，但它們面臨一個瓶頸：自注意力機制相對于序列長度的二次計算復雜度（O(n2)）。這對生成長視頻或高分辨率 3D 體素構成了重大挑戰。最近，狀態空間模型（SSM），尤其是 Mamba [88]，已成為一種極具吸引力的替代方案。Mamba 引入了一種選擇性掃描機制，在保持 Transformer 建模能力的同時實現了線性擴展（O(n)）。將 Mamba 集成到擴散主干網絡中，為高效處理極長上下文提供了潛力。未來的研究可能會集中于混合架構，將注意力的全局尋址能力與 SSM 的高效性相結合，從而在單次前向傳播中實現長達數分鐘的視頻或完整音樂作品的生成。

7.2. 推理與生成的融合（LLM + 擴散）

當前擴散模型的一個主要局限是缺乏語義推理能力；它們基于統計相關性生成像素，而非基于對世界的理解。相反，大語言模型（LLM）擅長推理，但缺乏原生的感官輸出。Visual ChatGPT-3.5 [89] 等早期工作通過將 LLM 作為控制器來調用擴散模型作為外部工具，彌合了這一差距。然而，該領域正朝著原生多模態融合的方向發展。未來的模型可能會在統一的令牌空間中運行，其中視覺和音頻數據被量化（通過 VQ-VAE 或類似技術）并與文本交錯排列。這將使單一基礎模型能夠理解復雜的多步指令、執行空間推理，并生成一致的多模態輸出，從而有效模糊“理解”與“創造”之間的界限。

7.3. 邁向世界模擬器與涌現能力

縮放定律（Scaling laws）表明，增加模型規模與數據量會催生涌現能力。在視頻擴散的背景下，模型開始充當“世界模擬器”。通過觀察海量視頻數據，這些模型在沒有顯式監督的情況下隱式地學習物理定律、物體恒存性與 3D 幾何。未來的研究可能會利用這一特性服務于具身人工智能與機器人技術。智能體可以在擴散生成的世界模擬器內進行訓練，從而替代依賴手工構建的模擬環境，該模擬器能夠預測未來狀態及對動作的反應。這代表了一種范式轉變：從為人類消費生成媒體內容，轉向為機器學習與科學模擬生成數據。

結論

本文對擴散模型進行了全面綜述，追溯了其從理論新奇事物到現代生成式人工智能骨干架構的演進歷程。我們綜合了實現高保真生成的核心原理，并對可控性與多模態合成的多樣化機制進行了分類。我們分析的核心主題是向效率轉變的必然趨勢：盡管早期研究不惜代價地優先追求生成質量，但擴散模型的未來在于"綠色人工智能"——使這些強大的模型變得可及且可持續。

通過對輕量級架構、求解器加速與知識蒸餾的詳細綜述，可以明顯看出，在邊緣設備上部署擴散模型不僅可行，而且正在快速推進。

展望未來，擴散模型與推理能力（大語言模型）及高效架構（狀態空間模型）的融合，預示著構建綜合性"世界模擬器"的發展軌跡。然而，實現這一愿景不僅需要在計算效率方面取得技術突破，還需要針對版權、偏見與安全等倫理挑戰提出魯棒的解決方案。

我們希望本綜述能為旨在彌合高性能生成與實際資源受限部署之間差距的研究人員提供一份有價值的路線圖。

原文鏈接：https://www.mdpi.com/2076-3417/16/5/2482

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.