![]()
認知神經科學前沿文獻分享
基本信息
Title:Training language models to be warm can reduce accuracy and increase sycophancy
發表時間:2026-04-29
發表期刊:Nature
影響因子:48.5
獲取原文:
1. 添加小助手:PSY-Brain-Frontier即可獲取PDF版本
![]()
研究背景
不少開發者把人格訓練(persona training)看成“只改說話風格”的后處理步驟,但這篇 Nature 問得更直接:如果把語言模型訓練得更溫暖、更友好,它在需要堅持事實、糾正錯誤信念時,會不會犧牲準確性。作者借用社會心理學里的“溫暖”維度,把它定義為用戶從輸出中感受到的善意、可信和親和,再據此檢驗“風格”和“正確性”是不是真的彼此獨立
實驗設計與方法邏輯
本文研究思路如下:
- 研究選取了 5 個已指令微調模型,把真實人機對話中的原始回復改寫得更溫暖,同時盡量保留原意,再做監督微調(supervised fine-tuning, SFT),并以第 2 個訓練輪次作為 warm 模型與原始模型對照
- 隨后,作者在 TriviaQA、TruthfulQA、MASK Disinformation 和 MedQA 四類可核驗問答任務上比較表現;又給同一問題追加情緒狀態、關系動態、互動 stakes 以及錯誤用戶信念,用來觀察準確率和迎合錯誤信念(sycophancy)的變化
- 作者還加入了一般能力、guardrails、回復長度、cold 微調和 system prompting 對照,用來排查“只是微調副作用”這種解釋
核心發現
發現一:溫暖微調確實讓模型更“暖”,但也穩定拉低了多任務準確率
五個模型在微調后都表現出更高的感知溫暖度,而且這種提升在前兩個訓練輪次里就已基本形成。和原始模型相比,warm 模型在四類問答任務上都更容易出錯:正文報告 MedQA、TruthfulQA、Disinfo 和 TriviaQA 的錯誤率分別上升 8.6、8.4、5.4 和 4.9 個百分點
控制任務和模型差異后,平均錯誤概率增加 7.43 個百分點。這個方向在不同架構和參數規模上都一致,不像是單一模型的偶發現象![]()
![]()
Fig. 1 中,作者展示了五個模型的溫暖分數隨訓練輪次明顯上升,并在 epoch 2 后趨于平臺;Fig. 2 則顯示 warm 模型在四類任務上大多落在比 original 模型更高的錯誤率位置發現二:一旦問題帶上人際線索,尤其是悲傷情緒,準確率代價會被放大
作者把同一批問題改寫得更接近日常對話,在題目后加入情緒、關系和 stakes 等線索。結果顯示,warm 模型在這些條件下更容易繼續偏離正確答案,其中情緒線索影響最大:無附加語境時,warm 與 original 的錯誤差為 7.43 個百分點;加入情緒線索后擴大到 8.87 個百分點,而 sadness 條件下達到 11.9 個百分點。關系線索和 stakes 也有影響,不過幅度較小![]()
Fig. 3 中,作者把“原問題”“加人際語境”“再疊加錯誤信念”三種條件并列比較;可以看到 warm 模型的錯誤分布在附加語境后整體上移,在悲傷等情緒條件下更明顯發現三:當用戶先表達錯誤看法時,warm 模型更容易附和
論文把 sycophancy 操作化為“對錯誤用戶信念的附和”,也就是同一道題在加入錯誤用戶表態后,模型會不會更傾向跟著答錯。結果顯示,加入錯誤用戶信念后,warm 模型比 original 模型多出 11 個百分點的錯誤;如果再疊加情緒線索,這個差距增至 12.1 個百分點
作者的對照分析還顯示,warm 模型在 MMLU、GSM8K 和 AdvBench 上并未普遍變差,cold 微調也沒有出現同樣一致的降準趨勢,因此正文更支持這樣一種解釋:溫暖相關訓練改變了模型的回答取向,而不是所有微調都會全面傷害能力或護欄![]()
![]()
Fig. 4 中,warm 與 original 模型在一般能力和拒答基準上的差異整體不大;Fig. 5 則進一步顯示 cold 微調通常接近原模型,而 warm 微調更一致地帶來性能下降,system prompting 也可能出現類似方向但更弱
省流總結
這篇 Nature 的核心信息是:把大模型訓練得更溫暖,不只是改“語氣”,還可能改變它在事實、醫學和錯誤信念面前的回答取向。作者在 5 類模型上看到,warmth fine-tuning 會提升親和感,同時拉低準確率,并增加對用戶錯誤看法的附和;這種風險在帶有悲傷等情緒線索時更明顯。不過,論文并沒有證明所有“溫暖化”方法都會同樣降準
分享人:天天
審核:PsyBrain 腦心前沿編輯部
你好,這里是「PsyBrain 腦心前沿」
專注追蹤全球認知神經科學的最尖端突破
視野直擊 Nature, Science, Cell 正刊 及核心子刊與頂級大刊
每日速遞「深度解讀」與「前沿快訊」
科研是一場探索未知的長跑,但你無需獨行。歡迎加入PsyBrain 學術社群,和一群懂你的同行,共同丈量腦與心智的無垠前沿。
點擊卡片進群,歡迎你的到來
一鍵關注,點亮星標 ? 前沿不走丟!
![]()
一鍵分享,讓更多人了解前沿
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.