![]()
認知神經(jīng)科學前沿文獻分享
![]()
基本信息
Title:Brain-inspired warm-up training with random noise for uncertainty calibration
發(fā)表時間:2026-04-09
發(fā)表期刊:Nature Machine Intelligence
獲取原文:
1. 添加小助手:PSY-Brain-Frontier即可獲取PDF版本
![]()
![]()
引言
對很多實際部署中的人工智能系統(tǒng)來說,真正決定能否被信任的,往往不只是“答得對不對”,還包括“它是否知道自己有多確定”。一輛自動駕駛汽車是否該減速,一套醫(yī)學影像模型給出的結(jié)論是否值得醫(yī)生進一步采納,乃至大語言模型生成的回答能否被直接引用,背后都牽涉同一個問題:模型給出的置信度,能不能真實反映它答對的概率。若二者不匹配,系統(tǒng)就可能在最不該自信的時候顯得異常篤定。
這正是不確定性校準(uncertainty calibration)要解決的核心問題。理想情況下,模型說自己有 80% 把握時,長期統(tǒng)計上就應當接近 80% 正確;但現(xiàn)實中的深度神經(jīng)網(wǎng)絡經(jīng)常不是這樣。它們在分布內(nèi)數(shù)據(jù)上可能已經(jīng)表現(xiàn)出“置信度高于正確率”的過度自信,面對分布外(out-of-distribution, OOD)輸入時也常把“沒見過”誤判成“很確定”。過去已有不少方法嘗試修正這一問題,但許多做法集中在預處理或后處理環(huán)節(jié),往往依賴額外計算、輔助模型,或把分布內(nèi)與分布外樣本分開處理。換句話說,這些方法更像是在輸出端補救,而不是追問失準究竟從哪里開始。
![]()
實驗設計與方法邏輯
文章的主分析對象是一個用于 CIFAR-10 十分類的多層前饋神經(jīng)網(wǎng)絡,采用 He 初始化、ReLU 和 batch normalization,并系統(tǒng)改變網(wǎng)絡深度與訓練數(shù)據(jù)規(guī)模,以觀察校準誤差如何隨模型復雜度和樣本量變化。核心干預是在真實數(shù)據(jù)訓練前增加一段“隨機噪聲熱身”:輸入為與圖像同尺寸的高斯噪聲,標簽從均勻分布隨機采樣,輸入與標簽不配對。
![]()
核心發(fā)現(xiàn)
發(fā)現(xiàn)一:常規(guī)隨機初始化并非中性起點,而是過度自信的重要來源,且在“模型更復雜、數(shù)據(jù)更少”時更嚴重
論文先用 Figure 1c 和 Figure 1d 立住了問題本身。Figure 1c 的可靠性圖顯示,理想校準應貼近對角線,但實際網(wǎng)絡的 accuracy 普遍低于 confidence,說明模型在常見訓練設置下存在系統(tǒng)性過度自信。Figure 1d 更關鍵,它把這種偏差放到“網(wǎng)絡深度 × 訓練數(shù)據(jù)規(guī)模”的條件網(wǎng)格中考察,顯示 ECE 會隨著訓練樣本減少、模型復雜度提高而加重。也就是說,失準并不是零散現(xiàn)象,而與現(xiàn)代深度學習常見的“大模型配有限數(shù)據(jù)”條件密切相關。
![]()
Figure 1. Confidence miscalibration in artificial neural networks
發(fā)現(xiàn)二:隨機噪聲熱身能顯著改善校準,并在不同架構(gòu)與訓練場景中保持效果
Figure 2 系統(tǒng)回答了這套方法是否真正有效。Figure 2d 顯示,在熱身階段,網(wǎng)絡損失下降但準確率停留在機會水平;而切換到真實數(shù)據(jù)后,熱身組的測試損失進一步降得更充分。更直接的證據(jù)來自 Figure 2e:加入熱身后,可靠性圖明顯更靠近理想對角線,插圖中的 ECE 也顯著下降。Figure 2f 則說明這種改善并非只在單一設定成立,而是在不同深度、不同數(shù)據(jù)規(guī)模下都能觀察到,且在“小數(shù)據(jù)、深網(wǎng)絡”這些本來更容易失準的條件下尤其明顯。
![]()
Figure 2. Warm-up training with random noise enables confidence calibration in neural networks
發(fā)現(xiàn)三:熱身之所以有效,是因為它先把初始化階段的高置信度與類別偏置壓回機會水平
論文最有價值的部分之一,是它沒有停在“方法有效”,而繼續(xù)追問“為什么有效”。Figure 3b 在二維 toy model 中可視化輸入空間后發(fā)現(xiàn):未經(jīng)訓練、只做常規(guī)隨機初始化的網(wǎng)絡,并不是均勻中性的,它已經(jīng)在大片區(qū)域上表現(xiàn)出明顯高置信度;而熱身之后,這種分布變得更均勻,更接近機會水平。Figure 3c 和 Figure 3d 進一步表明,熱身不僅降低了整體 confidence bias,也減輕了對特定輸出類別的初始偏向。
![]()
Figure 3. Random noise pre-calibrates neural network uncertainty over input space
發(fā)現(xiàn)四:預校準會重塑后續(xù)學習軌跡,并提升對分布外輸入的識別能力
Figure 4 和 Figure 5 把方法的意義從“初始狀態(tài)改變”延伸到了“后續(xù)行為改變”。Figure 4a–c 顯示,無論是在相同準確率下比較,還是在相同訓練輪次下比較,熱身組都擁有更好的可靠性圖和更低的 ECE,說明這不是一次性修補,而是改變了學習動力學。Figure 4d–f 更進一步表明,熱身組在訓練過程中能讓 confidence 與 accuracy 持續(xù)貼近理想對角線,而未熱身組則長期存在“置信度跑在正確率前面”的偏差。
![]()
Figure 4. Pre-calibration enables learning with matching confidence and accuracy
![]()
Figure 5. OOD detection using calibrated network confidence
![]()
歸納總結(jié)和點評
這篇工作最強的貢獻,是把“不確定性校準”從常見的輸出修正問題,前移為一個初始化與學習動力學問題:作者認為,深度網(wǎng)絡的過度自信并非只在訓練后形成,常規(guī)隨機初始化本身就可能讓模型在尚未理解數(shù)據(jù)前先顯得“太確定”;而一次簡短的隨機噪聲熱身,則能把這種初始置信度預先拉回機會水平,使后續(xù)真實任務訓練中的 confidence–accuracy 對齊更穩(wěn)定,并在分布外樣本識別上帶來收益。論文的優(yōu)點在于證據(jù)鏈完整,從失準現(xiàn)象、方法效果,到 toy model 機制解釋,再到訓練軌跡與 OOD 檢測,形成了較清晰的閉環(huán),也把發(fā)育神經(jīng)科學中的自發(fā)活動與機器學習中的模型可靠性建立了有啟發(fā)性的聯(lián)系。與此同時,它的邊界也應被認真看待:文中雖已擴展到多類視覺架構(gòu),并補充展示了語言生成等任務線索,但關于更大規(guī)模系統(tǒng)、尤其是復雜現(xiàn)實部署和大語言模型場景的系統(tǒng)驗證,仍有待后續(xù)研究補足,因此目前更適合把它理解為一種有機制支撐的訓練起點策略,而非已經(jīng)對所有 AI 系統(tǒng)普遍成立的最終答案。
![]()
請打分
這篇剛剛登上 Nature Machine Intelligence 的研究,是否實至名歸?我們邀請您作為“云審稿人”,一同品鑒。精讀全文后,歡迎在匿名投票中打分,并在評論區(qū)分享您的深度見解。
分享人:BQ
審核:PsyBrain 腦心前沿編輯部
你好,這里是「PsyBrain 腦心前沿」
專注追蹤全球認知神經(jīng)科學的最尖端突破
視野直擊 Nature, Science, Cell 正刊 及核心子刊與頂級大刊
每日速遞「深度解讀」與「前沿快訊」
科研是一場探索未知的長跑,但你無需獨行。歡迎加入PsyBrain 學術(shù)社群,和一群懂你的同行,共同丈量腦與心智的無垠前沿。
點擊卡片進群,歡迎你的到來
一鍵關注,點亮星標 ? 前沿不走丟!
![]()
一鍵分享,讓更多人了解前沿
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.