<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      NeurIPS 2025 | DePass:通過(guò)單次前向傳播分解實(shí)現(xiàn)統(tǒng)一特征歸因

      0
      分享至



      共同一作:洪翔宇,清華大學(xué)電子系大四本科生,曾獲清華大學(xué)蔣南翔獎(jiǎng)學(xué)金等,曾在NeurIPS,EMNLP,NAACL等頂級(jí)會(huì)議上發(fā)表論文。姜澈,清華大學(xué)電子系博士三年級(jí)在讀,主要研究方向?yàn)長(zhǎng)LM Interpretebility,LLM Agent,曾在NeurIPS,ICML,EMNLP,NAACL等頂級(jí)會(huì)議上發(fā)表論文。

      隨著大型語(yǔ)言模型在各類任務(wù)中展現(xiàn)出卓越的生成與推理能力,如何將模型輸出精確地追溯到其內(nèi)部計(jì)算過(guò)程,已成為 AI 可解釋性研究的重要方向。然而,現(xiàn)有方法往往計(jì)算代價(jià)高昂、難以揭示中間層的信息流動(dòng);同時(shí),不同層面的歸因(如 token、模型組件或表示子空間)通常依賴各自獨(dú)立的特定方法,缺乏統(tǒng)一且高效的分析框架。

      針對(duì)這一問(wèn)題,來(lái)自清華、上海 AI Lab 的研究團(tuán)隊(duì)提出了全新的統(tǒng)一特征歸因框架——DePass(Decomposed Forward Pass)。

      該方法通過(guò)將前向傳播中的每個(gè)隱藏狀態(tài)分解為多個(gè)可加子狀態(tài),并在固定注意力權(quán)重與 MLP 激活的情況下對(duì)其逐層傳播,實(shí)現(xiàn)了對(duì) Transformer 內(nèi)部信息流的無(wú)損分解與精確歸因。借助 DePass,研究者能夠在輸入 token、注意力頭、神經(jīng)元乃至殘差流子空間等多個(gè)層面上進(jìn)行歸因分析,為機(jī)制可解釋性研究提供了統(tǒng)一而細(xì)粒度的新視角。



      • 論文標(biāo)題:DePass: Unified Feature Attributing by Simple Decomposed Forward Pass
      • 論文鏈接: https://arxiv.org/pdf/2510.18462
      • 代碼鏈接: https://github.com/TsinghuaC3I/Decomposed-Forward-Pass

      問(wèn)題分析:

      現(xiàn)有歸因方法的局限性

      現(xiàn)有的歸因方法大致可以分為以下幾類:

      • 基于噪聲消融和激活修補(bǔ)的方法:這些方法通過(guò)直接對(duì)模型的所有模塊施加噪聲或修補(bǔ)激活值來(lái)分析模型行為,但計(jì)算成本高昂,且難以洞察中間信息流。
      • 基于梯度的歸因方法:這類方法在理論上面臨挑戰(zhàn),難以提供細(xì)粒度的解釋。
      • 基于模型近似或抽象的方法:雖然部分方法能夠與人類認(rèn)知對(duì)齊,但通常無(wú)法達(dá)到細(xì)粒度的組件級(jí)別(如神經(jīng)元或注意力頭),且非保守的近似可能會(huì)損害歸因的可信度。

      DePass:

      一種全新的歸因框架



      實(shí)驗(yàn)驗(yàn)證:

      DePass 的有效性

      DePass 提供了一個(gè)統(tǒng)一的歸因框架,支持在輸入 token、注意力頭、神經(jīng)元以及殘差流子空間等多個(gè)層面進(jìn)行一致歸因,無(wú)需修改模型結(jié)構(gòu)或依賴任務(wù)特定近似,并可自然銜接人類推理及稀疏字典學(xué)習(xí)(如 SAE)等方法。研究團(tuán)隊(duì)在 token 級(jí)、模型組件級(jí)和子空間級(jí)歸因任務(wù)上驗(yàn)證了 DePass 的有效性:

      Token-Level DePass——輸出歸因到輸入:精準(zhǔn)識(shí)別驅(qū)動(dòng)預(yù)測(cè)的核心證據(jù)

      我們首先在輸出到輸入 token 的歸因任務(wù)上驗(yàn)證了 DePass 的表現(xiàn),目標(biāo)是評(píng)估每個(gè)輸入 token 對(duì)模型最終輸出的實(shí)際貢獻(xiàn)。

      在「Disrupt-top」實(shí)驗(yàn)中,移除 DePass 判定最關(guān)鍵的 tokens 會(huì)導(dǎo)致模型輸出概率急劇下降,表明其捕捉到了真正驅(qū)動(dòng)預(yù)測(cè)的核心證據(jù);而在「Recover-top」實(shí)驗(yàn)中,DePass 保留的極少量 tokens 依然能高度恢復(fù)模型判斷。這表明 DePass 能夠更忠實(shí)地刻畫模型內(nèi)部的信息流動(dòng)與輸入貢獻(xiàn)關(guān)系,實(shí)現(xiàn)高可信度的 token 級(jí)歸因分析。



      Token-Level DePass——子空間歸因到輸入:追蹤子空間信號(hào)的 token 來(lái)源

      DePass 不僅能在 token 層面追蹤預(yù)測(cè)依據(jù),還能精準(zhǔn)定位哪些輸入 token 激活了模型中「特定方向/特定語(yǔ)義子空間」的信號(hào)(例如「truthfulness」方向),從而識(shí)別出影響模型判斷的關(guān)鍵來(lái)源(如誤導(dǎo)性信息),并顯著提升模型的可控性與可解釋性。

      在事實(shí)性任務(wù)中,團(tuán)隊(duì)利用 DePass 將「虛假信息子空間」拆解后,進(jìn)一步將其激活分配到每個(gè)輸入 token。歸因結(jié)果清晰揭示了哪些詞觸發(fā)了模型的錯(cuò)誤方向。基于這些 token 進(jìn)行定向遮罩后,模型在 CounterFact 上的事實(shí)性準(zhǔn)確率從約10% → 40%+大幅提升,顯著優(yōu)于現(xiàn)有 probe-based masking 方法。



      Model-Component-Level DePass——模型組件級(jí)歸因:觀察注意力頭與 MLP 神經(jīng)元的實(shí)際功能

      DePass 能直接量化每個(gè)注意力頭與 MLP 神經(jīng)元對(duì)預(yù)測(cè)的真實(shí)貢獻(xiàn),在遮罩實(shí)驗(yàn)中顯著優(yōu)于梯度、激活等傳統(tǒng)重要性指標(biāo)。

      當(dāng)遮罩 DePass 判定的「重要組件」(Top-k Masking)時(shí),模型準(zhǔn)確率下降更快;當(dāng)僅保留「最不重要組件」(Bottom-k Masking)時(shí),模型性能保持得更好。這說(shuō)明 DePass 識(shí)別的組件重要性具備更高的敏感性、完備性、因果性,在 IOI 與 CounterFact 等任務(wù)上均顯著超越 AtP、Norm 等主流歸因指標(biāo)。



      Subspace-Level DePass——子空間級(jí)歸因

      DePass 還可以用于研究隱狀態(tài)中不同子空間之間的相互作用,以及這些子空間對(duì)最終輸出的影響。我們以語(yǔ)言子空間(language subspace)為例進(jìn)行分析。

      我們訓(xùn)練了一個(gè)語(yǔ)言分類器,并將其權(quán)重方向作為語(yǔ)言子空間的基向量。隨后,將中間層的隱狀態(tài)分別投影到語(yǔ)言子空間與其正交語(yǔ)義子空間中;兩部分隱狀態(tài)在網(wǎng)絡(luò)中分別獨(dú)立傳播至最終層,并通過(guò) LM Head 解碼,以觀察其對(duì)應(yīng)輸出。

      • 語(yǔ)言子空間:經(jīng) t-SNE 顯示形成清晰的語(yǔ)言聚類(如英文/法文/德文),體現(xiàn)語(yǔ)言特征集中分布。
      • 語(yǔ)義子空間:獨(dú)立解碼結(jié)果跨語(yǔ)言一致,例如無(wú)論輸入語(yǔ)言為何,都會(huì)生成相同的事實(shí)答案(如「Dutch」)。

      這一結(jié)果說(shuō)明 DePass 能忠實(shí)保留并傳播子空間的功能屬性,為跨語(yǔ)言解釋和語(yǔ)義分解提供了全新視角。



      (左)對(duì) token 在語(yǔ)言子空間上的投影進(jìn)行 t-SNE 可視化。(右)針對(duì)不同多語(yǔ)言提示語(yǔ),從語(yǔ)言子空間與語(yǔ)義子空間中解碼得到的前五個(gè) token

      總結(jié)

      DePass 作為一種基于分解前向傳播的 Transformer 解釋框架,兼具簡(jiǎn)潔性與高效性。通過(guò)凍結(jié)并分配注意力得分和 MLP 激活,DePass 實(shí)現(xiàn)了無(wú)損的加性分解,可無(wú)縫適配各種 Transformer 架構(gòu)。

      實(shí)驗(yàn)結(jié)果表明,DePass 在多層次粒度的歸因分析中具有更高的忠實(shí)性。我們期望 DePass 能成為機(jī)制可解釋性研究中的通用工具,推動(dòng)社區(qū)在更廣泛的任務(wù)與模型上探索其潛力與應(yīng)用。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      吳柳芳“擦邊”反轉(zhuǎn),真相終于曝光!網(wǎng)友:把爛牌打出王炸...

      吳柳芳“擦邊”反轉(zhuǎn),真相終于曝光!網(wǎng)友:把爛牌打出王炸...

      品牌新
      2026-05-08 21:01:03
      中天科技和華為走到一起,竟悄悄捅破了AI算力的“天花板”

      中天科技和華為走到一起,竟悄悄捅破了AI算力的“天花板”

      我不叫阿哏
      2026-05-08 20:23:24
      深扒當(dāng)年聽證會(huì)孫楊母親的發(fā)言,國(guó)際法庭到芒果綜藝,她沒(méi)變過(guò)

      深扒當(dāng)年聽證會(huì)孫楊母親的發(fā)言,國(guó)際法庭到芒果綜藝,她沒(méi)變過(guò)

      阿廢冷眼觀察所
      2026-05-09 01:34:35
      文章虧大了!老鄉(xiāng)張藝謀攜7位陜西演員,上演40集央視大劇,缺他

      文章虧大了!老鄉(xiāng)張藝謀攜7位陜西演員,上演40集央視大劇,缺他

      冷紫葉
      2026-05-08 23:20:13
      系列賽3-0奪賽點(diǎn)!布倫森33分9助,尼克斯108-94再勝76人

      系列賽3-0奪賽點(diǎn)!布倫森33分9助,尼克斯108-94再勝76人

      全景體育V
      2026-05-09 09:51:53
      突遭*ST!301139,將強(qiáng)制退市

      突遭*ST!301139,將強(qiáng)制退市

      中國(guó)基金報(bào)
      2026-05-08 23:36:20
      倫敦世乒賽:日本女隊(duì)登上領(lǐng)獎(jiǎng)臺(tái)!3:0大獲全勝,4強(qiáng)對(duì)陣出爐

      倫敦世乒賽:日本女隊(duì)登上領(lǐng)獎(jiǎng)臺(tái)!3:0大獲全勝,4強(qiáng)對(duì)陣出爐

      國(guó)乒二三事
      2026-05-08 18:36:22
      暴擊!俄烏剛簽停火協(xié)議,澤連斯基突然下令:不許襲擊紅場(chǎng)閱兵!

      暴擊!俄烏剛簽停火協(xié)議,澤連斯基突然下令:不許襲擊紅場(chǎng)閱兵!

      菁菁子衿
      2026-05-09 09:45:24
      美股收盤:納指、標(biāo)普500指數(shù)再創(chuàng)新高 多只存儲(chǔ)芯片股大漲并創(chuàng)新高

      美股收盤:納指、標(biāo)普500指數(shù)再創(chuàng)新高 多只存儲(chǔ)芯片股大漲并創(chuàng)新高

      財(cái)聯(lián)社
      2026-05-09 04:02:20
      楚阿梅尼首度發(fā)聲回應(yīng)內(nèi)訌!皇馬重罰兩大中場(chǎng):各罰款50萬(wàn)歐元

      楚阿梅尼首度發(fā)聲回應(yīng)內(nèi)訌!皇馬重罰兩大中場(chǎng):各罰款50萬(wàn)歐元

      夜白侃球
      2026-05-09 09:34:03
      6月1日起全國(guó)醫(yī)院統(tǒng)一新規(guī),看病再也不用愁,誰(shuí)都不能例外

      6月1日起全國(guó)醫(yī)院統(tǒng)一新規(guī),看病再也不用愁,誰(shuí)都不能例外

      老特有話說(shuō)
      2026-05-07 15:20:09
      太陽(yáng)報(bào):卡塞米羅將生涯下一站交給一直支持他的妻子決定

      太陽(yáng)報(bào):卡塞米羅將生涯下一站交給一直支持他的妻子決定

      懂球帝
      2026-05-08 22:09:49
      “全部約滿”!不少深圳人搶到了!網(wǎng)友:早上定5、6個(gè)鬧鐘就為了搶號(hào)

      “全部約滿”!不少深圳人搶到了!網(wǎng)友:早上定5、6個(gè)鬧鐘就為了搶號(hào)

      小影的娛樂(lè)
      2026-05-07 11:05:08
      老外羨慕瘋了!曝AMD顯卡在中國(guó)竟是虧本大甩賣

      老外羨慕瘋了!曝AMD顯卡在中國(guó)竟是虧本大甩賣

      3DM游戲
      2026-05-09 09:55:06
      三星宣布停止在中國(guó)市場(chǎng)銷售所有家電產(chǎn)品

      三星宣布停止在中國(guó)市場(chǎng)銷售所有家電產(chǎn)品

      財(cái)聯(lián)社
      2026-05-06 19:32:22
      霍爾木茲海峽,突發(fā)大消息!特朗普,最新發(fā)聲!黃金、原油集體上漲!

      霍爾木茲海峽,突發(fā)大消息!特朗普,最新發(fā)聲!黃金、原油集體上漲!

      證券時(shí)報(bào)e公司
      2026-05-09 07:48:41
      伊媒:哈爾克島附近油污實(shí)為歐洲油輪排放物

      伊媒:哈爾克島附近油污實(shí)為歐洲油輪排放物

      財(cái)聯(lián)社
      2026-05-09 06:34:05
      國(guó)乒女團(tuán)晉級(jí)四強(qiáng),但仍有3大難題急待解決,馬琳早就把話說(shuō)透

      國(guó)乒女團(tuán)晉級(jí)四強(qiáng),但仍有3大難題急待解決,馬琳早就把話說(shuō)透

      八斗小先生
      2026-05-08 14:23:41
      懵了,三星市值破萬(wàn)億=騰訊+阿里巴巴+小米……還把中國(guó)大陸家電業(yè)務(wù)給停了

      懵了,三星市值破萬(wàn)億=騰訊+阿里巴巴+小米……還把中國(guó)大陸家電業(yè)務(wù)給停了

      新浪財(cái)經(jīng)
      2026-05-08 15:09:54
      表哥結(jié)婚沒(méi)請(qǐng)我家,收到酒店來(lái)電:先生,您訂的80桌什么時(shí)候結(jié)賬

      表哥結(jié)婚沒(méi)請(qǐng)我家,收到酒店來(lái)電:先生,您訂的80桌什么時(shí)候結(jié)賬

      麥子情感故事
      2026-05-08 22:38:44
      2026-05-09 10:32:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12951文章數(shù) 142646關(guān)注度
      往期回顧 全部

      科技要聞

      美國(guó)政府強(qiáng)力下場(chǎng) 蘋果英特爾達(dá)成代工協(xié)議

      頭條要聞

      媒體:沙特被美國(guó)激怒 海灣國(guó)家或?qū)⑸罨c中國(guó)關(guān)系

      頭條要聞

      媒體:沙特被美國(guó)激怒 海灣國(guó)家或?qū)⑸罨c中國(guó)關(guān)系

      體育要聞

      他把首勝讓給隊(duì)友,然后用一年時(shí)間還清賬單

      娛樂(lè)要聞

      古天樂(lè)被曝隱婚生子,新娘竟是她

      財(cái)經(jīng)要聞

      白宮:特朗普計(jì)劃5月14日至15日訪問(wèn)中國(guó)

      汽車要聞

      MG 4X實(shí)車亮相 將于5月11日開啟盲訂

      態(tài)度原創(chuàng)

      本地
      健康
      教育
      手機(jī)
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      干細(xì)胞能讓人“返老還童”嗎

      教育要聞

      這些專業(yè)持續(xù)火爆,底層邏輯是什么?

      手機(jī)要聞

      新機(jī)曝光臺(tái):涉及小米、iQOO、榮耀

      公開課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 人妻无码中文专区久久五月婷| 国产午夜片无码区在线播放| 中文字幕成人| 国产麻豆精品精东影业av网站| 无码激情亚洲一区| 亚洲AV成人片在线观看| 熟妇人妻无码中文字幕老熟妇| 日韩av无码免费大片bd| 亚洲国产精品一区二区制服| 91高清国产视频| 伊人www22综合色| 手机在线观看亚洲| 夜夜高潮天天爽欧美| 1206手机在线观看视频| 亚洲综合网站精品一区二区 | 亚洲乱码中文字幕| 久久精品女人的天堂av| 一本久道久久综合狠狠躁av| 男女无遮挡猛进猛出免费观看视频| 久久婷婷五月综合色一区二区| 国产无遮挡性视频免费看| 亚洲国产精品自在在线观看| 亚洲人成无码网www| 日韩丨亚洲丨制服|痴汉| jizz色| 成人亚洲欧美丁香在线观看| 亚洲一区成人av在线| 黄色片网页| 亚洲中文天堂| 中文字幕久久久久久久系列| 日本韩国欧美国产亚洲| 香蕉福利导航| 白浆视频在线观看| 亚洲av二区三区在线| 狼友综合网| 国产精品一区二区三区蜜臀| 中文字幕无码不卡免费视频 | 久久久女女女女999久久| 中文字幕久久熟女蜜桃 | 国产一起色一起爱| 国产黑丝视频在线观看|