網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

牛津最新NHB：為什么“分而治之”學(xué)得更好？認(rèn)知模型揭示人類分步學(xué)習(xí)機(jī)制

2026-05-07 18:16:23　來源: PsyBrain腦心前沿

北京舉報

分享至

認(rèn)知神經(jīng)科學(xué)前沿文獻(xiàn)分享

基本信息

Title:Human curriculum learning of a cue combination task

發(fā)表時間:2026-05-05

發(fā)表期刊:Nature Human Behaviour

影響因子:15.9

獲取原文:

1. 添加小助手:PSY-Brain-Frontier即可獲取PDF版本

研究背景

在面對復(fù)雜的學(xué)習(xí)任務(wù)時，我們通常的直覺是“分而治之”：將大問題拆解為小模塊，逐一攻克后再進(jìn)行綜合。這種課程設(shè)計(jì)理念在教育學(xué)中歷史悠久，但從計(jì)算層面上看，我們至今缺乏一個通用且嚴(yán)謹(jǐn)?shù)睦碚搧斫忉專簽槭裁刺囟ǖ挠?xùn)練大綱能夠促進(jìn)或阻礙生物智能的學(xué)習(xí)？

在認(rèn)知科學(xué)和神經(jīng)科學(xué)中，人類如何整合多源信息（例如醫(yī)生綜合多種癥狀做出診斷）已被廣泛研究。大量證據(jù)表明，人類能夠近乎最優(yōu)地根據(jù)線索的可靠性來賦予權(quán)重。然而，一個關(guān)鍵的斷點(diǎn)在于：大腦最初是如何“學(xué)會”這些線索權(quán)重的？在多線索同時出現(xiàn)的環(huán)境中，大腦如何將最終的反饋結(jié)果準(zhǔn)確地分配給每一個獨(dú)立的線索？令人困惑的是，基礎(chǔ)的深度學(xué)習(xí)系統(tǒng)通常很難從這種具有時間結(jié)構(gòu)的“課程學(xué)習(xí)”中獲益，這使得我們難以直接借用現(xiàn)成的AI模型來模擬人類的學(xué)習(xí)過程。

為了回答這一問題，牛津大學(xué)的研究團(tuán)隊(duì)采用經(jīng)典的概率性線索組合任務(wù)（天氣預(yù)測任務(wù)），系統(tǒng)考察了不同訓(xùn)練大綱對人類學(xué)習(xí)效率的影響。這項(xiàng)研究不僅試圖確立“分步學(xué)習(xí)”的行為學(xué)優(yōu)勢，更重要的是，它試圖構(gòu)建一個計(jì)算框架，揭示大腦在信用分配（credit assignment）時的底層策略，并以此反向指導(dǎo)全新訓(xùn)練大綱的設(shè)計(jì)。

研究核心總結(jié)

基于多項(xiàng)行為學(xué)實(shí)驗(yàn)與計(jì)算建模，本研究將人類在多線索環(huán)境下的學(xué)習(xí)機(jī)制拆解為以下三個核心發(fā)現(xiàn)。

一、“分而治之”策略顯著提升多線索學(xué)習(xí)表現(xiàn)

研究者首先對比了兩種最基礎(chǔ)的訓(xùn)練大綱：單線索訓(xùn)練（Singleton，每次只出現(xiàn)一個線索）和并行訓(xùn)練（Parallel，每次同時出現(xiàn)三個線索）。在隨后的無反饋測試階段，所有參與者都需要對三個線索的組合做出預(yù)測。

結(jié)果顯示，接受單線索訓(xùn)練的參與者，其最終在多線索測試中的準(zhǔn)確率顯著高于一開始就接受并行訓(xùn)練的參與者。更令人驚訝的是，這種優(yōu)勢打破了認(rèn)知心理學(xué)中常見的“編碼特異性”原則（即測試條件與訓(xùn)練條件越一致表現(xiàn)越好）。單線索訓(xùn)練不僅提升了參與者對已見過線索組合的判斷力，還能完美泛化到訓(xùn)練中從未出現(xiàn)過的全新線索組合上。后續(xù)的控制實(shí)驗(yàn)進(jìn)一步排除了動機(jī)差異、反應(yīng)時間等替代解釋，并在一個全新的空間序列任務(wù)（Pointer game）中復(fù)現(xiàn)了這一優(yōu)勢，證明“分而治之”是一種穩(wěn)健且跨領(lǐng)域的有效學(xué)習(xí)策略。

Fig 1. 展示了單線索與多線索并行訓(xùn)練的范式差異，以及單線索訓(xùn)練在測試階段帶來的顯著準(zhǔn)確率優(yōu)勢。

Fig 2. 證明了單線索訓(xùn)練的優(yōu)勢不僅穩(wěn)健，還能泛化到未曾訓(xùn)練過的全新線索組合中，且不受任務(wù)動機(jī)衰減的影響。

二、混合學(xué)習(xí)機(jī)制：在認(rèn)知成本與學(xué)習(xí)精度間動態(tài)權(quán)衡

為什么單線索訓(xùn)練會帶來如此巨大的優(yōu)勢？研究者引入了強(qiáng)化學(xué)習(xí)中的感知機(jī)模型，指出核心難點(diǎn)在于多線索環(huán)境下的“信用分配”。

當(dāng)多個線索共同導(dǎo)致一個結(jié)果時，大腦面臨兩種策略選擇。第一種是“邊緣更新”（Marginal updating），即假設(shè)每個線索獨(dú)立導(dǎo)致了結(jié)果，忽略其他線索的存在。這種策略認(rèn)知成本低，但在多線索環(huán)境下會導(dǎo)致權(quán)重學(xué)習(xí)產(chǎn)生嚴(yán)重偏差。第二種是“聯(lián)合更新”（Joint updating），即基于所有線索的綜合證據(jù)來更新權(quán)重。這種策略學(xué)習(xí)精度高，但需要消耗大量的認(rèn)知資源來整合信息。

計(jì)算建模表明，人類并非死板地使用單一策略，而是采用了一種符合“資源理性”的混合學(xué)習(xí)機(jī)制。具體而言，大腦會啟發(fā)式地評估當(dāng)前線索權(quán)重的差異（標(biāo)準(zhǔn)差）。當(dāng)線索權(quán)重差異較大，邊緣更新極易引發(fā)誤導(dǎo)時，大腦會切換到高成本的聯(lián)合更新；反之則使用邊緣更新以節(jié)省腦力。單線索訓(xùn)練的巧妙之處在于，它在早期規(guī)避了復(fù)雜的信用分配問題，使得參與者能夠快速建立起準(zhǔn)確的基礎(chǔ)權(quán)重，從而在后續(xù)面對多線索時，更容易觸發(fā)并依賴高精度的聯(lián)合更新策略。

Fig 3. 揭示了混合學(xué)習(xí)模型的架構(gòu)，表明人類會根據(jù)線索權(quán)重的差異，在低成本的邊緣更新與高精度的聯(lián)合更新之間靈活切換。

三、計(jì)算模型成功預(yù)測并指導(dǎo)了全新學(xué)習(xí)大綱的設(shè)計(jì)

如果上述混合學(xué)習(xí)理論是正確的，那么它就不應(yīng)僅僅停留在解釋已有現(xiàn)象，而應(yīng)能預(yù)測哪些新大綱有效、哪些無效。研究者利用該模型進(jìn)行了樣本外預(yù)測，并設(shè)計(jì)了三組全新的實(shí)驗(yàn)。

首先，模型預(yù)測，如果在并行訓(xùn)練中人為改變線索組合的分布，增加那些“極端權(quán)重組合”（Skewed high）的出現(xiàn)頻率，將有助于邊緣更新發(fā)揮作用，從而提升學(xué)習(xí)效果；反之（Skewed low）則會損害學(xué)習(xí)。實(shí)驗(yàn)4完美證實(shí)了這一反直覺的預(yù)測。其次，以往研究認(rèn)為消除反饋的隨機(jī)性（提供理想化確定性反饋）能促進(jìn)學(xué)習(xí)，但本研究的模型預(yù)測這在多線索組合任務(wù)中無效，實(shí)驗(yàn)5同樣證實(shí)了這一點(diǎn)。最后，模型預(yù)測“由簡入深”（從單線索遞增到三線索）和“由深入簡”（從三線索遞減到單線索）的課程設(shè)計(jì)在最終效果上沒有差異，實(shí)驗(yàn)6的數(shù)據(jù)再次與模型預(yù)測高度吻合。

Fig 4. 證實(shí)了模型的預(yù)測：增加極端權(quán)重線索組合的暴露頻率，能夠有效優(yōu)化大腦的信用分配過程，從而顯著提升整體學(xué)習(xí)效果。

Fig 5. 表明消除反饋的隨機(jī)性（理想化并行訓(xùn)練）并不能改善多線索組合任務(wù)的學(xué)習(xí)表現(xiàn)，進(jìn)一步驗(yàn)證了混合學(xué)習(xí)模型的預(yù)測邊界。

研究意義

這項(xiàng)工作真正推進(jìn)了我們對“課程學(xué)習(xí)（Curriculum Learning）”底層機(jī)制的理解。它不僅在行為層面上證實(shí)了“分而治之”策略的有效性，更在計(jì)算層面上給出了清晰的解釋：優(yōu)秀的訓(xùn)練大綱之所以有效，是因?yàn)樗鼈兦擅畹馗淖兞舜竽X在不同學(xué)習(xí)策略（邊緣更新與聯(lián)合更新）之間的成本收益權(quán)衡，引導(dǎo)學(xué)習(xí)者進(jìn)入了更優(yōu)的策略空間。

從方法學(xué)和應(yīng)用啟發(fā)的角度來看，這項(xiàng)研究展示了一種極具潛力的范式轉(zhuǎn)移。認(rèn)知計(jì)算模型不再僅僅是對人類行為的“事后擬合”，而是成為了可以主動設(shè)計(jì)和優(yōu)化人類訓(xùn)練方案的“導(dǎo)航儀”。通過模擬大腦的信用分配機(jī)制，我們可以精確計(jì)算出何種刺激分布能最大化學(xué)習(xí)效率。盡管當(dāng)前研究仍局限于已知線索的簡化環(huán)境，但它為未來利用算法為人類（甚至人工智能）量身定制教育大綱、加速復(fù)雜技能習(xí)得提供了一條堅(jiān)實(shí)的科學(xué)路徑。

分享人：飯鴿兒

審核：PsyBrain 腦心前沿編輯部

你好，這里是「PsyBrain 腦心前沿」

專注追蹤全球認(rèn)知神經(jīng)科學(xué)的最尖端突破

視野直擊 Nature, Science, Cell 正刊及核心子刊與頂級大刊

每日速遞「深度解讀」與「前沿快訊」

科研是一場探索未知的長跑，但你無需獨(dú)行。歡迎加入PsyBrain 學(xué)術(shù)社群，和一群懂你的同行，共同丈量腦與心智的無垠前沿。

點(diǎn)擊卡片進(jìn)群，歡迎你的到來

一鍵關(guān)注，點(diǎn)亮星標(biāo) ? 前沿不走丟！

一鍵分享，讓更多人了解前沿

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.