網易首頁 > 網易號 > 正文申請入駐

Nature 正刊 | 語言模型會“暗中學習”偏好嗎？模型喜歡貓頭鷹到底是怎么回事？

2026-04-22 12:11:17　來源: PsyBrain腦心前沿

北京舉報

分享至

認知神經科學前沿文獻分享

基本信息

Title:Language models transmit behavioural traits through hidden signals in data

發表時間:2026-04-15

發表期刊:Nature

影響因子:48.5

獲取原文:

1. 添加小助手:PSY-Brain-Frontier即可獲取PDF版本

研究背景

大語言模型的訓練中，常采用一種稱為模型蒸餾（distillation）的方法：即先有一個已完成訓練、具備較強能力的模型，稱為教師模型；再讓一個待訓練的新模型，即學生模型，去學習教師模型的輸出或中間表征，以此提升學生模型的能力。該過程通常還會輔以數據過濾，以剔除無關或低質信息

已有研究指出，蒸餾可能帶來非預期的副作用，本文進一步探討如下問題：如果教師模型在某一行為特征上與訓練數據的語義內容無關，并且與之關聯的顯式或潛在線索在數據過濾階段已被清除，那么學生模型在蒸餾后是否仍會繼承這一特征？作者將這種現象命名為“閾下學習”（subliminal learning）

Fig. 1 | Schematic overview of the subliminal learning effect.

實驗設計與方法邏輯

本研究采用“教師-學生”框架展開:

首先，以某一參考模型為基礎，通過系統提示或微調干預，構造出攜帶特定行為特征的教師模型。這些特征包括對特定動物或樹木的偏好，以及被誘導出的失配傾向
隨后，令教師模型生成與上述特征在語義上完全無關的內容，例如隨機數字序列、Python 代碼片段或數學推理鏈。所有生成數據均經過格式規則篩查與基于大語言模型的二次過濾，以排除任何可能直接暗示目標偏好的顯式或潛在線索
最后，以過濾后的數據對學生模型進行監督微調，該學生模型從與教師模型相同的參考模型初始化而來。評估階段通過偏好選擇任務、中性自由問答以及 TruthfulQA 等基準，檢驗學生模型是否在未接觸語義相關內容的條件下，繼承了教師模型的目標行為特征
此外，研究還設置了跨模型組合與上下文學習對照實驗，以判別該現象是否依賴于模型間的共享初始化，而非數據中殘留的語義可讀信息

核心發現

發現一：偏好特征通過無關數據在同源模型間傳遞

當教師與學生共享或高度匹配基礎模型時，教師對特定動物或樹木的偏好可通過數字序列傳遞給僅受此類無關數據訓練的學生模型

正文數據顯示，在以教師生成的數字序列進行微調后，GPT-4.1 Nano 學生模型選擇目標動物“貓頭鷹”的比例從基線的 12% 攀升至 60% 以上。即便在經歷兩階段嚴格過濾的 Python 代碼數據上，學生模型的選擇偏好同樣出現了定向偏移。與之相對，使用數字序列或由偏好其他目標的教師生成的數據進行訓練的對照組，并未表現出同等程度的偏好轉移

Fig. 4 直觀呈現了數字與代碼條件下學生模型對教師目標偏好選擇比例的顯著變化

發現二：失配傾向可通過數字與思維鏈數據傳播

研究進一步考察了更為敏感的失配傾向傳遞。通過向教師模型注入不安全代碼內容以誘發失配行為后，令其生成數字序列或數學思維鏈數據，并經由過濾流程移除包含負面數值、錯誤答案及顯性失配表征的樣本

結果表明，即使訓練數據已剔除明顯的失配痕跡，學生模型在中性自由問答中輸出失配回答的概率仍顯著上升：數字條件約為 10%，思維鏈條件約為 8%，而對照組的發生率則低得多。在 TruthfulQA 基準上，學生模型生成虛假陳述的頻率亦有所增加。值得注意的是，此處的“失配”現象僅限于特定提示、基準及評估流程下的觀測結果，不應被引申為對模型整體安全性能的全面評估結論

Fig. 3 比較了不同教師來源下學生模型的失配回答率，并附有中性提示觸發失配回答的示例

發現三：傳遞現象依賴共享初始化或行為匹配

跨模型實驗表明，學生模型穩定繼承教師行為特征的情形，主要發生在師生雙方共享相同初始化或基礎模型高度匹配的配置中。在大多數異質模型組合下，未觀察到特征的系統性傳遞

正文指出，GPT-4.1 與 GPT-4o 之間出現的偏好傳遞是少數例外之一，作者推測這可能源于二者在初始化階段的潛在共性。上下文學習對照實驗未能復現特征傳遞效應，這進一步支持了以下推斷：該現象并非源于模型在上下文窗口內直接讀取到語義線索，而是與更深層的初始化一致性或行為表征對齊有關

Fig. 5 通過對比不同師生組合間的偏好傳遞強度，直觀展示了傳遞效應對模型匹配程度的依賴關系

省流總結

本研究表明，在特定的模型蒸餾條件下，學生模型能夠從語義無關且經嚴格過濾的數據中繼承教師模型的行為偏好乃至失配傾向。作者將這一現象命名為“閾下學習”，其發生高度依賴師生模型間的共享初始化或行為表征匹配。需要強調的是，當前結果并不能外推至任意模型與任意行為特征的普遍性傳播，研究中亦未涉及對潛在防御策略的驗證與評估

分享人：天天

審核：PsyBrain 腦心前沿編輯部

你好，這里是「PsyBrain 腦心前沿」

專注追蹤全球認知神經科學的最尖端突破

視野直擊 Nature, Science, Cell 正刊及核心子刊與頂級大刊

每日速遞「深度解讀」與「前沿快訊」

科研是一場探索未知的長跑，但你無需獨行。歡迎加入PsyBrain 學術社群，和一群懂你的同行，共同丈量腦與心智的無垠前沿。

點擊卡片進群，歡迎你的到來

一鍵關注，點亮星標 ? 前沿不走丟！

一鍵分享，讓更多人了解前沿

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.