網易首頁 > 網易號 > 正文申請入駐

Nature | 越像“會安慰人”的模型，越容易順著你答錯？

2026-05-06 12:11:11　來源: PsyBrain腦心前沿

北京舉報

分享至

認知神經科學前沿文獻分享

基本信息

Title:Training language models to be warm can reduce accuracy and increase sycophancy

發表時間:2026-04-29

發表期刊:Nature

影響因子:48.5

獲取原文:

1. 添加小助手:PSY-Brain-Frontier即可獲取PDF版本

研究背景

不少開發者把人格訓練（persona training）看成“只改說話風格”的后處理步驟，但這篇 Nature 問得更直接：如果把語言模型訓練得更溫暖、更友好，它在需要堅持事實、糾正錯誤信念時，會不會犧牲準確性。作者借用社會心理學里的“溫暖”維度，把它定義為用戶從輸出中感受到的善意、可信和親和，再據此檢驗“風格”和“正確性”是不是真的彼此獨立

實驗設計與方法邏輯

本文研究思路如下：

研究選取了 5 個已指令微調模型，把真實人機對話中的原始回復改寫得更溫暖，同時盡量保留原意，再做監督微調（supervised fine-tuning, SFT），并以第 2 個訓練輪次作為 warm 模型與原始模型對照
隨后，作者在 TriviaQA、TruthfulQA、MASK Disinformation 和 MedQA 四類可核驗問答任務上比較表現；又給同一問題追加情緒狀態、關系動態、互動 stakes 以及錯誤用戶信念，用來觀察準確率和迎合錯誤信念（sycophancy）的變化
作者還加入了一般能力、guardrails、回復長度、cold 微調和 system prompting 對照，用來排查“只是微調副作用”這種解釋

核心發現

發現一：溫暖微調確實讓模型更“暖”，但也穩定拉低了多任務準確率

五個模型在微調后都表現出更高的感知溫暖度，而且這種提升在前兩個訓練輪次里就已基本形成。和原始模型相比，warm 模型在四類問答任務上都更容易出錯：正文報告 MedQA、TruthfulQA、Disinfo 和 TriviaQA 的錯誤率分別上升 8.6、8.4、5.4 和 4.9 個百分點

控制任務和模型差異后，平均錯誤概率增加 7.43 個百分點。這個方向在不同架構和參數規模上都一致，不像是單一模型的偶發現象

Fig. 1 中，作者展示了五個模型的溫暖分數隨訓練輪次明顯上升，并在 epoch 2 后趨于平臺；Fig. 2 則顯示 warm 模型在四類任務上大多落在比 original 模型更高的錯誤率位置

發現二：一旦問題帶上人際線索，尤其是悲傷情緒，準確率代價會被放大

作者把同一批問題改寫得更接近日常對話，在題目后加入情緒、關系和 stakes 等線索。結果顯示，warm 模型在這些條件下更容易繼續偏離正確答案，其中情緒線索影響最大：無附加語境時，warm 與 original 的錯誤差為 7.43 個百分點；加入情緒線索后擴大到 8.87 個百分點，而 sadness 條件下達到 11.9 個百分點。關系線索和 stakes 也有影響，不過幅度較小

Fig. 3 中，作者把“原問題”“加人際語境”“再疊加錯誤信念”三種條件并列比較；可以看到 warm 模型的錯誤分布在附加語境后整體上移，在悲傷等情緒條件下更明顯

發現三：當用戶先表達錯誤看法時，warm 模型更容易附和

論文把 sycophancy 操作化為“對錯誤用戶信念的附和”，也就是同一道題在加入錯誤用戶表態后，模型會不會更傾向跟著答錯。結果顯示，加入錯誤用戶信念后，warm 模型比 original 模型多出 11 個百分點的錯誤；如果再疊加情緒線索，這個差距增至 12.1 個百分點

作者的對照分析還顯示，warm 模型在 MMLU、GSM8K 和 AdvBench 上并未普遍變差，cold 微調也沒有出現同樣一致的降準趨勢，因此正文更支持這樣一種解釋：溫暖相關訓練改變了模型的回答取向，而不是所有微調都會全面傷害能力或護欄

Fig. 4 中，warm 與 original 模型在一般能力和拒答基準上的差異整體不大；Fig. 5 則進一步顯示 cold 微調通常接近原模型，而 warm 微調更一致地帶來性能下降，system prompting 也可能出現類似方向但更弱

省流總結

這篇 Nature 的核心信息是：把大模型訓練得更溫暖，不只是改“語氣”，還可能改變它在事實、醫學和錯誤信念面前的回答取向。作者在 5 類模型上看到，warmth fine-tuning 會提升親和感，同時拉低準確率，并增加對用戶錯誤看法的附和；這種風險在帶有悲傷等情緒線索時更明顯。不過，論文并沒有證明所有“溫暖化”方法都會同樣降準

分享人：天天

審核：PsyBrain 腦心前沿編輯部

你好，這里是「PsyBrain 腦心前沿」

專注追蹤全球認知神經科學的最尖端突破

視野直擊 Nature, Science, Cell 正刊及核心子刊與頂級大刊

每日速遞「深度解讀」與「前沿快訊」

科研是一場探索未知的長跑，但你無需獨行。歡迎加入PsyBrain 學術社群，和一群懂你的同行，共同丈量腦與心智的無垠前沿。

點擊卡片進群，歡迎你的到來

一鍵關注，點亮星標 ? 前沿不走丟！

一鍵分享，讓更多人了解前沿

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.