網易首頁 > 網易號 > 正文申請入駐

南京大學揭秘AI"多技能合并"的底層密碼

2026-04-30 21:48:19　來源: 科技行者

天津舉報

分享至

這項由南京大學、臥龍崗大學和南洋理工大學聯合開展的研究，發表于2026年4月，論文編號為arXiv:2604.17078，有興趣深入了解的讀者可以通過該編號查詢完整論文。

假設你雇了八位專家——一位識別交通標志的專家、一位辨認紋理的專家、一位認識衛星圖像的專家……現在你希望把他們的"腦子"合并成一個人，讓這個人同時具備所有八種能力。聽起來美好，但現實往往很骨感：合并后的"超級專家"，往往會在某些技能上表現得比原來的專家差，甚至把幾種技能混成一鍋粥，分不清楚。

這就是當今AI領域正在熱烈研究的"模型合并"問題，更具體地說，是一種叫做"任務算術"（Task Arithmetic）的技術所面臨的核心挑戰。研究團隊在這篇論文中不僅找到了這一現象背后的根本原因，還給出了一個簡潔有效的解決方法——OrthoReg正交正則化器。

一、什么是"任務算術"，它為什么會失敗

要理解這項研究，得先從頭說起：現代大型AI模型（比如能識別圖像的CLIP模型）通常是在海量數據上預訓練好的一個"通用底座"。如果你想讓它學會識別交通標志，你就把它在交通標志數據上再訓練一遍，得到一個新模型。這兩個模型的權重（可以理解為AI大腦里每條神經連接的強度數值）之差，就被稱為"任務向量"——它代表著讓AI從通用狀態變成特定專家所需要做的那些調整。

任務算術的思路極其優雅：既然每個專家模型都可以表示為"通用底座 + 某個任務向量"，那么把多個任務向量直接相加，不就能得到一個同時具備多種能力的超級模型嗎？這種方法完全不需要重新訓練，只需要做一次加法運算，計算成本幾乎可以忽略不計。

然而現實是，當你把多個任務向量疊加在一起時，它們常常會相互干擾，就像幾個人同時往一個錄音機里說話，最終錄出來的聲音混成一片，誰的話都聽不清楚。這種干擾現象被稱為"任務沖突"，是任務算術最棘手的問題。

此前，學界提出了一個叫做"權重解耦"（Weight Disentanglement）的概念來描述理想狀態：在這個理想狀態下，把多個任務向量合并之后，針對任務A的輸入只會被任務A的向量影響，而任務B的向量對它完全沒有影響，反之亦然。就好像每個專家在腦子里有專屬的抽屜，互不打擾。但"權重解耦"只是描述了我們希望達到的目標，并沒有告訴我們：是什么東西讓這種解耦成為可能，又是什么東西破壞了它？

研究團隊正是從這個問題出發，踏上了"尋找底層原因"的探索之旅。

二、尋找根源：AI大腦里的"專屬抽屜"

研究團隊提出了一個全新的核心概念，叫做"任務特征專化"（Task-Feature Specialization，簡稱TFS）。

用一個具體的場景來理解這個概念：AI大腦里的每一層神經網絡，都像是一個巨大的過濾器矩陣，矩陣的每一列可以看作一個"特征提取器"，負責從輸入中抓取某種特定的信息——比如邊緣、顏色、紋理、形狀之類的低級特征，或者更抽象的高級語義特征。

所謂"任務特征專化"，就是指：理想情況下，識別交通標志這個任務只依賴矩陣中某幾列特征提取器，而識別衛星圖像這個任務依賴另外幾列完全不重疊的特征提取器。每個任務都有自己的專屬地盤，互不侵占。

研究團隊用嚴格的數學證明了：如果一個模型確實滿足這種"任務特征專化"的性質，那么把多個任務向量合并之后，權重解耦就必然成立。換句話說，TFS是權重解耦的一個充分條件。這是該領域第一次有人清晰地指出：是什么底層性質讓任務算術在理想情況下能夠工作。

證明的邏輯并不復雜，用直覺來理解的話是這樣的：當你把任務B的向量疊加到模型上，它只會改動任務B專屬的那幾列特征提取器。而對于任務A的數據來說，它只關心任務A專屬的那幾列特征提取器，對任務B的列根本不敏感。所以任務B的向量對任務A的數據來說，就像空氣一樣毫無影響。

三、從"功能性質"到"幾何形狀"：一個意外卻重要的發現

故事到這里還沒結束，因為研究團隊接下來有了一個非常關鍵的發現。他們意識到，如果一個模型滿足任務特征專化，那么它的權重矩陣必然會展現出一種特殊的幾何形狀：列向量正交性（Weight Vector Orthogonality，簡稱WVO）。

"正交"這個詞聽起來很數學，但其實非常直觀。在二維平面上，兩條相互垂直的線就是正交的；在更高維度的空間里，兩個向量如果夾角恰好是90度，它們也是正交的。兩個正交向量意味著它們彼此之間"毫無關聯"，你沿著一個方向移動，對另一個方向沒有任何投影或影響。

為什么任務特征專化會導致列向量正交？直覺上是這樣的：由于不同任務專用的特征提取器彼此獨立、互不關聯，它們在統計意義上就不會有相關性，而統計上不相關的列向量，在理想情況下，夾角會趨近于90度。

更令人驚喜的是，研究團隊在真實的預訓練CLIP ViT-B/16模型上做了測量，發現所有權重矩陣中，列向量兩兩之間的夾角分布非常尖銳地集中在90度附近——超過95%的列向量對的夾角與90度的偏差不超過5度。這說明，大規模預訓練過程自然而然地推動了模型形成這種近乎完美的正交結構，就好像模型在學習海量數據的過程中，自發地把不同的"信息處理通道"分配給了不同的功能區域，它們彼此獨立，互不干擾。

這一發現非常重要，因為它建立了一座橋梁：任務特征專化（看不見摸不著的功能性質）與列向量正交性（可以直接測量的幾何性質）之間存在內在聯系。TFS是兩者共同的根本原因，而WVO則是TFS在幾何上留下的可觀測印記。

四、理想很美好，現實很骨感：當專屬抽屜不夠用時

既然預訓練模型天然具有近似正交的結構，為什么任務算術還是經常出問題呢？

關鍵在于：當你開始對模型進行任務特定的微調（fine-tuning）時，預訓練模型那種干凈的正交結構往往會被破壞。更根本的問題是，"任務特征專化"是一個理想假設——它要求不同任務依賴完全不重疊的特征集合。但現實中，"識別交通標志"和"識別衛星圖像"可能都需要依賴一些共同的底層特征，比如邊緣檢測、顏色對比度等。這種特征集合的重疊，被研究團隊稱為"特征重疊"（Feature Overlap）。

一旦存在特征重疊，某個共享特征的權重列就會同時被多個任務的微調過程修改。任務B的任務向量會在這些共享列上留下非零的修改，而對于任務A的數據來說，它們恰好也對這些列敏感，于是任務B的任務向量就會對任務A的數據產生干擾。就好像兩個專家共用一個抽屜，結果彼此的文件混在一起，都找不到了。

這就是為什么光靠預訓練模型的良好基礎還不夠——微調出來的任務向量本身，也需要被"管理"，才能減少相互干擾。

五、OrthoReg：用一個小小的懲罰項，推動任務向量相互"保持距離"

既然直接強制執行"任務特征專化"太難（你不知道哪些特征屬于哪個任務），研究團隊換了一個思路：既然TFS會導致列向量正交性，那能不能反過來，在微調時直接強制權重更新矩陣的列向量相互正交，來間接促進解耦效果？

這個想法產生了OrthoReg——一個簡單到令人吃驚的正則化項。在對模型進行任務A的微調時，不只是最小化任務A的損失函數，還額外加上一個懲罰項：要求每次微調產生的權重變化矩陣（?W），其列向量兩兩之間盡量相互正交，用數學語言說就是讓?W轉置乘以?W盡量接近單位矩陣（即每列與自己的內積為1，與其他列的內積為0）。

這個懲罰項極其簡潔，只有一行公式，計算起來也很輕量，幾乎不增加訓練時間和顯存占用。然而它的效果，研究團隊通過嚴格的數學證明揭示了其背后的深層邏輯。

證明的核心思路分為兩步。第一步是"范數控制"：正交約束天然地限制了權重更新矩陣的大小，進而約束了整個任務向量的"體積"不會無限膨脹。第二步也是更關鍵的一步，叫做"角度控制"：通過一系列巧妙的數學推導，利用極分解定理（一種把矩陣拆解為旋轉部分和縮放部分的工具），可以證明當每個任務各自的權重更新矩陣內部都滿足正交結構時，不同任務的任務向量之間，在統計意義上，夾角會趨向于90度——也就是說，它們會相互"保持距離"，不再指向同一個方向。

任務向量相互正交，就意味著任務B的向量與任務A數據的梯度方向基本垂直，內積接近于零，干擾自然消失。這從理論上嚴格證明了OrthoReg能夠促進權重解耦。

六、和前輩方法的比較：殊途同歸的底層邏輯

研究團隊還做了一件很有意思的事：把OrthoReg與此前最重要的理論方法——"切線空間任務算術"（Tangent Task Arithmetic，簡稱TTA）——做了深入比較，發現兩者其實通過不同路徑抵達了同一個目的地。

TTA的思路是：在預訓練模型的"切線空間"里做微調，利用預訓練模型神經切線核（NTK）的一種局部化性質——即來自不同任務域的數據點之間，NTK核函數的值接近于零——來自然地使不同任務的任務向量相互正交。這個方法在理論上很優雅，但有一個大問題：它需要在訓練過程中持續計算雅可比矩陣（一種描述模型輸出對所有參數梯度的巨型矩陣），這會使訓練時間增加約75%，顯存消耗增加約60%。在大模型上，這種開銷是相當可觀的。

OrthoReg則是顯式地、直接地通過一個簡單的懲罰項來強制正交性，計算開銷極小。兩種方法的底層目標是一致的——都是讓不同任務的任務向量相互正交——但OrthoReg以更低的代價實現了相同乃至更好的效果。

七、實驗結果：數字會說話

研究團隊在一個標準的八任務圖像分類基準上做了全面測試，使用的是CLIP預訓練的視覺Transformer模型，包括ViT-B/32、ViT-B/16和ViT-L/14三種規模。測試涵蓋汽車識別、紋理分類、歐洲衛星圖像分類、交通標志識別、手寫數字識別、遙感場景分類、場所識別和街景數字識別這八個差異極大的任務。

以最大的ViT-L/14模型為例，把OrthoReg應用于標準非線性微調這一基線方法后，合并后模型的絕對準確率從84.07%提升到了88.23%，提升了4.16個百分點。應用于TTA后，從86.19%提升到87.52%。應用于只微調注意力模塊的方法后，從87.81%提升到了90.41%，創下了該基準的新紀錄。

更能說明問題的是一個叫做"歸一化準確率"的指標——它衡量的是合并后的單一模型與八個各自獨立訓練的專家模型的性能比值。如果這個值達到100%，就意味著合并后的模型表現與所有專家的獨立組合完全一樣好，說明任務之間的干擾幾乎被完全消除。研究團隊發現，在ViT-L/14上，注意力微調加上OrthoReg的歸一化準確率達到了100.05%，非線性微調加上OrthoReg達到了100.08%。換句話說，合并后的單一模型竟然在多個任務上與甚至稍稍超過了獨立的專家模型——這正是理想權重解耦的現實體現。

研究團隊還測試了任務遺忘場景，也就是用減法把某個任務向量從模型中"刪除"，讓模型忘記某項技能。實驗發現，OrthoReg能顯著增強遺忘效果，同時對其他無關能力的影響最小化。以ViT-L/14上的注意力微調方法為例，加上OrthoReg后，目標任務的準確率多下降了10.18個百分點，而模型在ImageNet上的通用能力幾乎沒有變化。這說明OrthoReg訓練出來的任務向量更加"干凈"，像一把精準的手術刀，切除目標能力時不會誤傷周圍組織。

此外，研究團隊還直接可視化了不同任務向量之間的余弦相似度熱力圖。沒有OrthoReg的情況下，熱力圖的非對角線區域有明顯的亮色，說明不同任務的向量高度相關；加上OrthoReg之后，非對角線區域變得明顯更暗，直觀地證明了不同任務的向量確實更加相互正交。

從計算成本來看，在ViT-L/14上，標準微調需要158分鐘和約42.6GB顯存，TTA需要281分鐘和約68GB顯存，而加了OrthoReg的標準微調只需要177分鐘和約44.5GB顯存——以極小的額外代價，換來了超越TTA的性能。

參數敏感性分析也表明，OrthoReg對超參數的選擇并不敏感。隨著正則化強度的增大，性能穩定提升；在一大段合并系數范圍內，加了OrthoReg的模型始終比不加的版本表現更好，說明OrthoReg不僅提升了峰值性能，還讓整個模型合并過程變得更加魯棒。

在參數高效微調（LoRA）場景下，OrthoReg在幾乎所有模塊組合上都帶來了一致的提升，唯一的例外是純MLP層配置在小模型上有輕微下降，這與理論上注意力層承載更多任務特異信息的分析相吻合。

說到底，這項研究做的事情可以用一句話概括：找到了AI"多技能合并"失敗的根本原因，并且提出了一個既簡單又有效的修復方法。

歸根結底，任務算術能不能成功，核心取決于不同任務的學習結果是否能"相互繞開"，不在參數空間里撞車。而促成這一點的，是AI大腦中一種叫做任務特征專化的性質——不同任務各自占據一批獨立的功能區域，互不侵占。這種性質在幾何上會留下列向量正交的印記，而OrthoReg正是通過直接強化這種幾何正交性，來間接推動功能上的任務解耦。

對于普通用戶來說，這項研究的意義在于：未來的AI產品有可能更輕松地在不增加計算成本的情況下，把多個專項能力可靠地整合到一個模型里，而不必擔心技能之間互相干擾。這意味著AI助手可以在不同專業領域之間切換得更加流暢，而開發者也可以更放心地通過疊加任務向量來"定制"AI的能力組合。

當然，這項研究也留下了一些有趣的開放問題：正交約束是否有更多樣化的形式？能否在合并階段而非微調階段實施更靈活的正交性約束？這些都是值得繼續探索的方向。如果你對這一切的數學細節感興趣，可以通過arXiv:2604.17078找到完整論文，那里有所有定理的嚴格證明，以及更豐富的實驗細節。

Q&A

Q1：任務算術（Task Arithmetic）是什么技術，它的核心問題是什么？

A：任務算術是一種無需重新訓練、只通過對模型權重做加減法來合并多個專項AI能力的技術。每個專項能力被表示為"任務向量"，即微調前后模型權重的差值。核心問題在于，將多個任務向量直接相加后，不同任務之間會相互干擾，導致合并后的模型在某些任務上表現變差，這種現象被稱為任務沖突。

Q2：OrthoReg正交正則化器的具體做法是什么，它為什么能減少任務沖突？

A：OrthoReg在微調時對權重更新矩陣增加一個額外的懲罰項，要求更新矩陣的各列向量相互正交（夾角趨近于90度）。這種內部正交結構在數學上能夠統計性地使不同任務的任務向量也相互正交，從而讓任務B的向量對任務A的數據幾乎沒有影響，實現任務之間的功能解耦，降低合并時的相互干擾。

Q3：OrthoReg與切線空間任務算術（TTA）相比有什么優勢？

A：兩者底層目標相同，都是讓不同任務的任務向量相互正交。但TTA需要在訓練過程中持續計算雅可比矩陣，使訓練時間增加約75%、顯存占用增加約60%。OrthoReg只是在損失函數中加入一個簡單的懲罰項，計算開銷極小，在ViT-L/14上訓練時間僅比標準微調多約12%，卻能取得超過TTA的最終性能。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.