<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Nature | 越像“會安慰人”的模型,越容易順著你答錯?

      0
      分享至


      認知神經科學前沿文獻分享

      基本信息

      Title:Training language models to be warm can reduce accuracy and increase sycophancy

      發表時間:2026-04-29

      發表期刊:Nature

      影響因子:48.5

      獲取原文:

      1. 添加小助手:PSY-Brain-Frontier即可獲取PDF版本


      研究背景

      不少開發者把人格訓練(persona training)看成“只改說話風格”的后處理步驟,但這篇 Nature 問得更直接:如果把語言模型訓練得更溫暖、更友好,它在需要堅持事實、糾正錯誤信念時,會不會犧牲準確性。作者借用社會心理學里的“溫暖”維度,把它定義為用戶從輸出中感受到的善意、可信和親和,再據此檢驗“風格”和“正確性”是不是真的彼此獨立

      實驗設計與方法邏輯

      本文研究思路如下:

      1. 研究選取了 5 個已指令微調模型,把真實人機對話中的原始回復改寫得更溫暖,同時盡量保留原意,再做監督微調(supervised fine-tuning, SFT),并以第 2 個訓練輪次作為 warm 模型與原始模型對照
      2. 隨后,作者在 TriviaQA、TruthfulQA、MASK Disinformation 和 MedQA 四類可核驗問答任務上比較表現;又給同一問題追加情緒狀態、關系動態、互動 stakes 以及錯誤用戶信念,用來觀察準確率和迎合錯誤信念(sycophancy)的變化
      3. 作者還加入了一般能力、guardrails、回復長度、cold 微調和 system prompting 對照,用來排查“只是微調副作用”這種解釋

      核心發現

      發現一:溫暖微調確實讓模型更“暖”,但也穩定拉低了多任務準確率

      五個模型在微調后都表現出更高的感知溫暖度,而且這種提升在前兩個訓練輪次里就已基本形成。和原始模型相比,warm 模型在四類問答任務上都更容易出錯:正文報告 MedQA、TruthfulQA、Disinfo 和 TriviaQA 的錯誤率分別上升 8.6、8.4、5.4 和 4.9 個百分點

      控制任務和模型差異后,平均錯誤概率增加 7.43 個百分點。這個方向在不同架構和參數規模上都一致,不像是單一模型的偶發現象


      Fig. 1 中,作者展示了五個模型的溫暖分數隨訓練輪次明顯上升,并在 epoch 2 后趨于平臺;Fig. 2 則顯示 warm 模型在四類任務上大多落在比 original 模型更高的錯誤率位置
      發現二:一旦問題帶上人際線索,尤其是悲傷情緒,準確率代價會被放大

      作者把同一批問題改寫得更接近日常對話,在題目后加入情緒、關系和 stakes 等線索。結果顯示,warm 模型在這些條件下更容易繼續偏離正確答案,其中情緒線索影響最大:無附加語境時,warm 與 original 的錯誤差為 7.43 個百分點;加入情緒線索后擴大到 8.87 個百分點,而 sadness 條件下達到 11.9 個百分點。關系線索和 stakes 也有影響,不過幅度較小

      Fig. 3 中,作者把“原問題”“加人際語境”“再疊加錯誤信念”三種條件并列比較;可以看到 warm 模型的錯誤分布在附加語境后整體上移,在悲傷等情緒條件下更明顯
      發現三:當用戶先表達錯誤看法時,warm 模型更容易附和

      論文把 sycophancy 操作化為“對錯誤用戶信念的附和”,也就是同一道題在加入錯誤用戶表態后,模型會不會更傾向跟著答錯。結果顯示,加入錯誤用戶信念后,warm 模型比 original 模型多出 11 個百分點的錯誤;如果再疊加情緒線索,這個差距增至 12.1 個百分點

      作者的對照分析還顯示,warm 模型在 MMLU、GSM8K 和 AdvBench 上并未普遍變差,cold 微調也沒有出現同樣一致的降準趨勢,因此正文更支持這樣一種解釋:溫暖相關訓練改變了模型的回答取向,而不是所有微調都會全面傷害能力或護欄


      Fig. 4 中,warm 與 original 模型在一般能力和拒答基準上的差異整體不大;Fig. 5 則進一步顯示 cold 微調通常接近原模型,而 warm 微調更一致地帶來性能下降,system prompting 也可能出現類似方向但更弱

      省流總結

      這篇 Nature 的核心信息是:把大模型訓練得更溫暖,不只是改“語氣”,還可能改變它在事實、醫學和錯誤信念面前的回答取向。作者在 5 類模型上看到,warmth fine-tuning 會提升親和感,同時拉低準確率,并增加對用戶錯誤看法的附和;這種風險在帶有悲傷等情緒線索時更明顯。不過,論文并沒有證明所有“溫暖化”方法都會同樣降準

      分享人:天天

      審核:PsyBrain 腦心前沿編輯部

      你好,這里是「PsyBrain 腦心前沿

      專注追蹤全球認知神經科學的最尖端突破

      視野直擊 Nature, Science, Cell 正刊 及核心子刊與頂級大刊

      每日速遞「深度解讀」與「前沿快訊

      科研是一場探索未知的長跑,但你無需獨行。歡迎加入PsyBrain 學術社群,和一群懂你的同行,共同丈量腦與心智的無垠前沿。

      點擊卡片進群,歡迎你的到來

      一鍵關注,點亮星標 ? 前沿不走丟!


      一鍵分享,讓更多人了解前沿

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      邦本宜裕:換新教練后陣型有改變,上半場大家踢得不是很熟悉

      邦本宜裕:換新教練后陣型有改變,上半場大家踢得不是很熟悉

      懂球帝
      2026-05-10 21:53:10
      開國大典時,群眾高呼“毛主席萬歲”,毛澤東平靜地說道:我52歲

      開國大典時,群眾高呼“毛主席萬歲”,毛澤東平靜地說道:我52歲

      翠羽
      2026-05-11 07:25:15
      NBA2026選秀結果:奇才狀元&爵士榜眼&灰熊探花

      NBA2026選秀結果:奇才狀元&爵士榜眼&灰熊探花

      吳朑愛游泳
      2026-05-11 06:14:22
      湄公河血案的制造者,在案發前不久,收到三筆來自美國的巨額匯款

      湄公河血案的制造者,在案發前不久,收到三筆來自美國的巨額匯款

      春秋硯
      2026-05-11 07:25:11
      奇才隊贏得選秀狀元簽后,2026年NBA選秀完整順位如下

      奇才隊贏得選秀狀元簽后,2026年NBA選秀完整順位如下

      好火子
      2026-05-11 04:55:09
      重大轉機!普京重磅宣布,全世界都懵了!

      重大轉機!普京重磅宣布,全世界都懵了!

      大嘴說天下
      2026-05-10 23:15:03
      OPPO致歉后,中國廣告協會、武漢大學發聲

      OPPO致歉后,中國廣告協會、武漢大學發聲

      21世紀經濟報道
      2026-05-10 18:55:03
      0:3落后!湖人沒希望了!詹姆斯遇里程悲,兩大水貨今夏必走人

      0:3落后!湖人沒希望了!詹姆斯遇里程悲,兩大水貨今夏必走人

      鳴哥說體育
      2026-05-10 13:14:06
      114國不簽條公約成廢紙,萬億交易額,讓美國制裁撲了個空

      114國不簽條公約成廢紙,萬億交易額,讓美國制裁撲了個空

      古事尋蹤記
      2026-05-11 07:20:27
      當伊朗亮出海底光纜底牌時,全世界才發現,中國藏了一手更絕的

      當伊朗亮出海底光纜底牌時,全世界才發現,中國藏了一手更絕的

      聞識
      2026-05-06 21:50:14
      15.98萬,真的瘋了

      15.98萬,真的瘋了

      放毒
      2026-05-09 18:53:10
      日本局勢生變!高市下跪后,東京爆發大規模抗議,日防長登機離日

      日本局勢生變!高市下跪后,東京爆發大規模抗議,日防長登機離日

      浪子阿邴聊體育
      2026-05-09 05:01:31
      騎士翻盤進東決?四大要素證明,活塞是強弩之末,騎士雙核在改變

      騎士翻盤進東決?四大要素證明,活塞是強弩之末,騎士雙核在改變

      老梁體育漫談
      2026-05-11 00:03:27
      2.5寸硬盤為何成了存儲界的"小強"

      2.5寸硬盤為何成了存儲界的"小強"

      薛定諤的BUG
      2026-05-11 00:10:20
      史詩級合作!英偉達聯手康寧光連接擴產 10倍 5大供應商直接起飛

      史詩級合作!英偉達聯手康寧光連接擴產 10倍 5大供應商直接起飛

      元芳說投資
      2026-05-10 06:20:08
      46歲華人女子與富豪上床后威脅曝光,獲650萬美元后仍不滿足,要分12億美元

      46歲華人女子與富豪上床后威脅曝光,獲650萬美元后仍不滿足,要分12億美元

      大洛杉磯LA
      2026-05-11 05:47:38
      奚夢瑤獨自在香港逛街!手捂肚子表情好痛苦,小腹隆起引三胎猜疑

      奚夢瑤獨自在香港逛街!手捂肚子表情好痛苦,小腹隆起引三胎猜疑

      漫婷侃娛樂
      2026-05-07 22:25:01
      李湘瘦成了水蛇腰,臉整整小了一圈,女兒反倒胖了一圈

      李湘瘦成了水蛇腰,臉整整小了一圈,女兒反倒胖了一圈

      鄉野小珥
      2026-05-10 13:06:04
      WTI原油期貨漲幅擴大至3%,報98.409美元/桶

      WTI原油期貨漲幅擴大至3%,報98.409美元/桶

      每日經濟新聞
      2026-05-11 06:07:08
      印尼想靠鎳礦卡中國脖子?中國:不好意思,我們早換人了!

      印尼想靠鎳礦卡中國脖子?中國:不好意思,我們早換人了!

      花小貓的美食日常
      2026-05-10 16:04:24
      2026-05-11 08:00:49
      PsyBrain腦心前沿
      PsyBrain腦心前沿
      追蹤腦科學新動態,聚焦認知與神經新研究
      402文章數 20關注度
      往期回顧 全部

      科技要聞

      OPPO們永遠學不會的年輕化

      頭條要聞

      特朗普:伊朗的回應“完全不可接受”

      頭條要聞

      特朗普:伊朗的回應“完全不可接受”

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      趙露思老實人豁出去了 沒舞蹈天賦硬跳

      財經要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      教育
      健康
      本地
      游戲
      手機

      教育要聞

      女孩分享初中生毀掉前途的五個壞習慣

      干細胞能讓人“返老還童”嗎

      本地新聞

      用蘇繡的方式,打開江西婺源

      IGN10分新游玩法太迷!玩家稱其“純看動畫通關”

      手機要聞

      華為官網確認:暢連App「實時對講」功能將支持部分機型無網使用

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日本亚洲一区二区三区| 丰满人妻熟妇乱偷人无码| 国产亚洲无线码一区二区| 99中文精品7| AV永久天堂一区二区三区| 连南| 国产又黄又爽又无遮挡的视频| 国产又色又爽又黄又免费软件 | 国产高清又黄又嫩的免费视频网站| 精品国产拍国产天天人| 欧美三级不卡在线观看视频| 久久亚洲精品成人无码| 超碰在线成人| 最新精品国偷自产在线下载| 天天草夜夜| 粗大挺进尤物人妻一区二区| 亚洲孰妇无码av在线播放| 在线日韩日本国产亚洲| 精品国产一区二区三区蜜殿| 午夜69成人做爱视频网站| a毛片基地免费大全| 伊伊人成亚洲综合人网7777 | 国产一级在线现免费观看| 极品乱人伦| 精品久久久久久无码不卡 | 中文 国产 无码免费| 亚洲精品一区二区三区大桥未久| 无码人妻一区二区三区精品视频| 国产99久久久久久免费看| 亚洲熟女网| 亚洲熟女乱色一区二区三区| 91超碰欧美经典伊人| 国产精品真实对白精彩久久| 日本www一道久久久免费榴莲 | 国产成人无码午夜视频在线观看| 亚洲综合色日本日b网| 亚洲综合伊人久久大杳蕉| 最新国产精品好看的精品| 18禁成年免费无码国产| 日韩AV一区二区三区| 91人妻精|