<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      學術前沿丨連續(xù)兩篇 ICLR,南京大學林浩鑫將世界模型動力學推演推進到上千步

      0
      分享至

      轉自 機器之心

      當世界模型越來越大,真正制約它走向「內部模擬器」的,未必是表征能力,而可能是動力學建模。

      世界模型(World Models)的目標,是在模型內部構建一個可以進行未來推演的環(huán)境。過去幾年,這個方向在狀態(tài)表征上進展迅速:更強的編碼器、更好的潛變量表示、更成熟的序列建模方法,不斷提升模型對環(huán)境的壓縮和表達能力。

      但另一塊同樣關鍵、甚至更決定「世界模型到底能不能真正用起來」的問題,卻長期沒有被同等力度地推進——動力學建模

      原因很簡單。世界模型不只是要「看懂」世界,更要能夠穩(wěn)定地推演世界。它不僅要把當前觀測壓縮成內部狀態(tài),還要回答一個更難的問題:狀態(tài)在動作作用下會如何持續(xù)演化。

      這正是南京大學LAMDA 強化學習小組博士生林浩鑫連續(xù)兩篇 ICLR 工作所聚焦的核心問題。2025 年和 2026 年,他作為第一作者先后發(fā)表:

      • Any-step Dynamics Model Improves Future Predictions for Online and Offline Reinforcement Learning(ICLR 2025)

      • 作者:Haoxin Lin, Yu-Yan Xu, Yihao Sun, Zhilong Zhang, Yi-Chen Li, Chengxing Jia, Junyin Ye, Jiaji Zhang, Yang Yu.

      • ADM-v2: Pursuing Full-Horizon Roll-out in Dynamics Models for Offline Policy Learning and Evaluation(ICLR 2026)

      • 作者:Haoxin Lin, Siyuan Xiao, Yi-Chen Li, Zhilong Zhang, Yihao Sun, Chengxing Jia, Yang Yu.

      兩篇論文沿著同一條主線持續(xù)推進:世界模型中的動力學,到底該如何建模,才能穩(wěn)定支持長時域未來預測。

      其中,ADM-v2 的代表性突破在于:在離線強化學習的動力學模型設定下,它首次將完整時域滾動推演(full-horizon roll-out)穩(wěn)定推進到上千步規(guī)模這意味著,世界模型正從「能做多步預測」進一步邁向「能夠完成近整回合級別全程推演」的內部模擬器。

      世界模型不只要「看懂」世界,還要「推演」世界

      經典論文《World Models》奠定了這一方向的基本框架。一個完整的世界模型通常包含兩個核心部分,如圖 1:

      1. V 模型,即狀態(tài)表征:將原始觀測壓縮為緊湊、可計算的內部狀態(tài);

      2. M 模型,即動力學建模:在內部狀態(tài)空間中預測未來狀態(tài)如何隨動作變化。

      前者解決「模型看到了什么」,后者解決「模型如何推演未來」。


      圖 1:David Ha 與 Jurgen Schmidhuber《World Models》論文中的整體框架圖。

      過去幾年,世界模型相關工作的很多進展都集中在狀態(tài)表征上。更強的視覺編碼器、更有效的潛變量表示、更長上下文的序列建模,都顯著提升了模型對環(huán)境信息的壓縮和表達能力。

      相比之下,動力學建模雖然直接決定模型能否穩(wěn)定推演未來,卻長期沒有得到同等強度的系統推進。

      但從系統能力上看,動力學建模恰恰是最關鍵的一環(huán)。因為世界模型最核心的價值,不是「把環(huán)境壓縮一下」,而是允許智能體先在模型內部滾動推演 (roll-out),再決定是否與真實環(huán)境交互。

      這件事直接關系到:模型型強化學習、離線強化學習、策略評估,以及更一般的具身智能規(guī)劃與決策。

      一旦世界模型只能做短程預測,它更像是一個局部預測器;只有當它能夠穩(wěn)定支撐長程甚至完整時域推演時,它才真正接近「內部模擬器」。

      為什么動力學建模難:問題出在「自舉式預測」

      傳統動力學模型大多采用單步預測:輸入當前狀態(tài) 和動作 ,預測下一狀態(tài)

      這種做法在短程預測中很自然,但一旦進入長程推演,就會暴露出明顯局限。原因在于,模型在連續(xù) roll-out 時,需要不斷把自己剛剛預測出的狀態(tài)再次作為下一步輸入。這個過程就是典型的自舉式預測(bootstrapping prediction)。

      它的核心問題非常突出:

      • 只要某一步出現偏差,后續(xù)預測就會建立在這個偏差之上;

      • 誤差會在滾動推演中持續(xù)累積并不斷放大;

      • 預測 horizon 越長,軌跡偏移通常越嚴重。

      很多世界模型「短程有效、長程失穩(wěn)」的根源,其實都在這里。也因此,過去不少模型式方法往往會主動限制 rollout 的長度,用更短的 horizon 來控制 model bias。

      與之相對的思路,是直接預測(direct prediction)。

      所謂直接預測,不是一步一步層層遞推,而是從一個更穩(wěn)定的起始狀態(tài)出發(fā),結合一段動作序列,跨多步直接預測未來狀態(tài)。這樣做的核心收益在于:它顯著縮短了誤差傳播鏈條,因此更適合長時域推演。

      圍繞動力學建模的改進,最終都會落到幾個最根本的問題上:

      • 長程推演時,誤差是否可控;

      • 面對未見過的動作序列,模型能否泛化;

      • 不確定性估計是否可靠;

      • 模型是否真的能支撐完整回合級別的未來推演。


      ADM:不再一步一步猜未來,而是「任意步直接預測」

      林浩鑫在 ICLR 2025 的論文《Any-step Dynamics Model》中,正面切入了這個問題。

      核心想法:未來不一定非要靠「上一步預測結果」來推出來

      傳統單步動力學學習的是從到 的映射。

      ADM 則提出:未來狀態(tài)不一定非要依賴上一步預測結果層層遞推得到,也可以從更早的狀態(tài)出發(fā),結合一段動作序列,直接預測若干步后的狀態(tài)

      這里最關鍵的操作是回溯 (backtracking)。模型從不同長度的歷史視角出發(fā),對未來狀態(tài)進行任意步直接預測,因此被命名為Any-step Dynamics Model

      這背后的變化,看起來只是「預測方式不一樣了」,但本質上是在重寫未來推演的計算路徑:

      • 過去是單步自舉、層層遞推;

      • 現在是跨時域直接預測、減少誤差鏈條。

      誤差不再需要在每一步都傳遞一次,長程 roll-out 的穩(wěn)定性也就自然提升了。


      圖 2:Any-step Dynamics Model 模型結構以及不同回溯長度下的預測機制。


      一個模型,也能做出類似集成的不確定性估計

      ADM 的另一個亮點,在于它對不確定性估計的處理。

      在很多離線強化學習方法中,最常見的辦法之一是模型集成 (ensemble):訓練多個動力學模型,再用模型之間的預測分歧來估計某個區(qū)域是否可靠。

      ADM 提出了一種更有結構的思路:同一個模型在不同回溯長度下的預測差異,本身就可以作為不確定性信號。

      從直覺上看:

      • 如果模型處在訓練數據覆蓋充分的區(qū)域,那么不同回溯尺度下的預測應當相對一致;

      • 如果模型進入數據稀疏區(qū)域或分布外區(qū)域,那么不同時間尺度上的預測分歧就會明顯變大。

      換句話說,ADM 相當于把「不同時間跨度上的預測視角」組織成了一種更輕量、也更結構化的內部集成方式。

      這讓它在不依賴大規(guī)模模型集成的情況下,也能獲得有用的不確定性估計。


      圖 3:ADM 與模型集成在不確定性估計上的相關性對比。


      圖 4:ADM、模型集成和普通 RNN 動力學模型在長程滾動推演誤差增長上的對比。

      實驗結果:未來預測改善帶來策略學習提升

      基于 ADM,論文進一步構建了:

      • ADMPO-ON:面向在線模型型強化學習;

      • ADMPO-OFF:面向離線模型型強化學習。

      實驗結果表明,ADM 帶來的不是局部性質上的改動,而是對未來預測質量和最終策略性能的同步提升:

      • 在在線設置中,ADMPO-ON 具備更高的樣本效率;

      • 在離線設置中,ADMPO-OFF 在 D4RL 和 NeoRL 上優(yōu)于多種強基線。


      表 1:D4RL 上與 BC、CQL、MOPO、MOBILE 等方法的對比結果。


      表 2:此處插入 ADM 論文 Table 2,展示 NeoRL 上的對比結果。


      圖 5:ADM 與自舉式預測、模型集成自舉式預測的誤差累積曲線。

      這篇工作系統地證明了,動力學建模不必局限于「單步自舉式預測」這一條路徑。世界模型中的未來預測,可以通過任意步、跨時域的直接預測方式得到重新組織。

      ADM-v2:首次把完整時域滾動推演推進到上千步

      如果說 ADM 回答的是「未來能不能不靠單步自舉來預測」,那么 2026 年的 ADM-v2 回答的則是更進一步的問題:

      動力學模型能否真正支撐完整時域滾動推演 (full-horizon roll-out)?

      這里的「完整時域」,并不是簡單地把 rollout 拉長一點,而是要盡可能覆蓋接近完整回合的推演過程,而不只是幾步、十幾步的局部展開。

      這件事為什么重要?因為它對應的是世界模型能力層級上的一次躍遷。

      • 如果模型只能做短程推演,它更像一個局部預測器;

      • 如果模型能夠穩(wěn)定支撐完整時域推演,它才更接近一個真正的內部模擬器。

      ADM-v2 的關鍵突破就在于:在離線強化學習的動力學模型設定下,它首次將 full-horizon roll-out 穩(wěn)定推進到上千步規(guī)模。

      這不是一個普通實驗數字,而是一個能力門檻。它意味著,模型式方法開始從「短程近似預測」走向「近整回合級別的連續(xù)推演」。

      結構改進:狀態(tài)負責初始化,動作負責演化

      原始 ADM 在循環(huán)過程中會反復引入起始狀態(tài),這使內部表征與起點狀態(tài)存在較強耦合。

      ADM-v2 對這一結構做了更自然的重構:

      • 先將起始狀態(tài)編碼為隱表示;

      • 將這一隱表示作為循環(huán)單元的初始隱藏狀態(tài);

      • 后續(xù)遞推只輸入動作序列,不再重復輸入起始狀態(tài)。

      這種設計把「狀態(tài)初始化」和「動作驅動演化」明確分開,提升了多步直接預測的靈活性和穩(wěn)定性。


      圖 6:ADM 與 ADM-v2 的結構差異對比。

      PARoll:并行任意步滾動推演

      ADM-v2 進一步提出了并行任意步滾動推演(PARoll, Parallel Any-step Roll-out)。

      它的核心思想是:在長程推演過程中,同時維護多個由不同時間步幅構成的預測視角,并行地產生未來狀態(tài)預測,再利用這些預測之間的差異來估計不確定性。

      這樣做帶來兩方面收益:

      • 任意步直接預測可以更高效地執(zhí)行;

      • 不確定性估計可以自然伴隨長程 rollout 一起產生。

      但更關鍵的是,PARoll 的價值不只在「更快」或者「更方便」。它真正把 ADM-v2 從「概念上能做長程預測」推進到了「實際上能夠執(zhí)行上千步 full-horizon 推演」這一層。

      也就是說,ADM-v2 不再只是證明「任意步預測是個好主意」,而是進一步證明:這條路線確實可以支撐近整回合級別的長程推演。


      圖 7:PARoll 的并行結構和多時間線預測機制。

      從「學策略」走向「評策略」

      ADM-v2 的一個重要擴展,是把動力學模型進一步用于離線策略評估

      這是一個非常關鍵的落點。因為在離線強化學習以及具身智能場景中,新策略往往不能輕易回到真實環(huán)境中反復試驗,如何評估策略價值就變得非常重要。

      從理想狀態(tài)出發(fā),最直接的方式當然是:讓策略先在世界模型中完整運行若干個回合,再估計它的總回報。

      但這對動力學模型提出了極高要求。只有當模型在長程滾動推演中誤差足夠可控時,這樣的評估才具有可信度。

      ADM-v2 在這方面取得了明顯進展。論文在 DOPE benchmark 上的結果表明,基于 ADM-v2 的完整時域滾動推演評估優(yōu)于多種離線策略評估方法,也優(yōu)于其他動力學模型方案。

      更重要的是,這篇工作首次驗證了動力學模型可以穩(wěn)定支撐上千步的全程推演,并在這一尺度上同時服務于策略學習與策略評估。

      這件事的意義在于,它讓世界模型開始擺脫「短程預測工具」的角色,進一步走向「可用于整回合模擬的內部環(huán)境」。


      圖 8:DOPE benchmark 上不同離線策略評估方法的整體對比結果。

      在離線策略學習任務中,ADM-v2 同樣表現突出。

      論文報告,基于 ADM-v2 的ADM2PO-fh在 D4RL 和 NeoRL 上取得了新的最好結果;與此前強基線相比,平均性能提升分別超過4.6%12.8%

      更值得注意的是,很多已有方法在 rollout 長度增加時,性能往往會明顯下降。原因很直接:一旦模型偏差在長時域上迅速累積,更長的推演反而會變成噪聲來源。

      但 ADM-v2 展現出一種不同的趨勢:它能夠持續(xù)從更長時域的推演中獲益。

      這恰恰說明,ADM-v2 的改進不是「把 rollout 拉長了」,而是讓更長時域的 rollout真正變得可用


      表 3:D4RL 上與 CQL、EDAC、MOPO、MOBILE、MOREC 等方法的對比。


      表 4:NeoRL 上的對比結果。


      圖 9:不同滾動推演長度對性能的影響。

      把模型做大的同時,也要把動力學建模做對

      如果把這兩篇工作放在一起看,它們可以構成一條連續(xù)推進的技術主線。

      第一步,ADM 證明:動力學模型不必局限于單步自舉式預測。未來狀態(tài)可以通過任意步、跨時域的直接預測來重構,從而緩解長程誤差累積。

      第二步,ADM-v2 進一步證明:在 Any-step 路線已經被驗證有效之后,通過更合理的模型結構和并行滾動推演機制,動力學模型可以真正支撐上千步級別的完整時域滾動推演。

      第三步,這條路線最終指向的是:把世界模型從「局部預測工具」推進為更接近「數據驅動模擬器」的系統形態(tài)。

      今天的世界模型研究,很容易把注意力集中在更大的參數規(guī)模、更長的上下文、更豐富的數據和更強的表征能力上。

      這些當然重要,但如果未來預測仍然主要依賴誤差會不斷累積和放大的自舉式路徑,那么模型即使變得更大,也未必能穩(wěn)定支撐長程推演、規(guī)劃和評估。

      從這個意義上說,林浩鑫這兩篇工作的價值,不只是提出了兩個新方法,而是把注意力重新拉回到一個更底層的問題上:世界模型的動力學,必須被認真建模。

      只有在動力學建模本身做對的前提下,模型規(guī)模的增長才更有可能轉化為真實的系統能力。尤其當目標從短程預測走向長期推演、從樣本生成走向策略評估時,動力學建模的重要性只會繼續(xù)上升。

      如果說 ADM 證明了「未來預測不必依賴單步自舉去完成」,那么 ADM-v2 則進一步證明了:在離線強化學習的動力學模型語境下,世界模型已經開始具備承擔上千步整回合推演任務的能力。

      對于離線強化學習、機器人學習、通用智能體,以及更大規(guī)模的世界模型系統而言,這條路線的潛力還遠沒有被完全展開。下一階段,動力學建模很可能會成為世界模型繼續(xù)向前演化時,最無法回避的關鍵問題之一。

      【免責聲明】轉載出于非商業(yè)性的教育和科研目的,只為學術新聞信息的傳播,版權歸原作者所有,如有侵權請立即與我們聯系,我們將及時刪除。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      火箭39號簽和52號簽兩大完美選擇!要成熟度,9.4助攻控衛(wèi)成首選

      火箭39號簽和52號簽兩大完美選擇!要成熟度,9.4助攻控衛(wèi)成首選

      安海客
      2026-05-14 19:42:48
      不斷挑撥制造不和!小玥兒不再退讓,一舉戳破和馬筱梅真實交情

      不斷挑撥制造不和!小玥兒不再退讓,一舉戳破和馬筱梅真實交情

      社會日日鮮
      2026-05-15 06:49:29
      特斯拉中國推出全新優(yōu)惠!這次確實良心了

      特斯拉中國推出全新優(yōu)惠!這次確實良心了

      XCiOS俱樂部
      2026-05-15 21:55:04
      人活多久,看喝酒就知道?壽命短的人,喝酒一般有這6個特征

      人活多久,看喝酒就知道?壽命短的人,喝酒一般有這6個特征

      芹姐說生活
      2026-05-14 23:38:55
      一年開銷600萬!脫離王室第4年,梅根終于活成了哈里的“老媽子”

      一年開銷600萬!脫離王室第4年,梅根終于活成了哈里的“老媽子”

      白露文娛志
      2026-05-15 16:25:04
      全紅嬋媽媽住院照曝光!已經無力握住嬋寶的手,嬋寶的話字字催淚

      全紅嬋媽媽住院照曝光!已經無力握住嬋寶的手,嬋寶的話字字催淚

      喜歡歷史的阿繁
      2026-05-15 18:25:43
      這就是張作霖年輕時的真實長相,比兒子張學良帥多了,罕見老照片

      這就是張作霖年輕時的真實長相,比兒子張學良帥多了,罕見老照片

      春秋硯
      2026-05-15 20:00:05
      西伯利亞:吃不完的鹿肉,收不完的糧;砍不完的森林,挖不完的礦

      西伯利亞:吃不完的鹿肉,收不完的糧;砍不完的森林,挖不完的礦

      抽象派大師
      2026-05-12 20:12:00
      為何美國精英一到中國,瞬間收斂隨性畫風,全員變正經?

      為何美國精英一到中國,瞬間收斂隨性畫風,全員變正經?

      荊楚寰宇文樞
      2026-05-15 23:18:56
      夫妻性生活別急著進入!學會這招“延遲滿足”,爽感增倍

      夫妻性生活別急著進入!學會這招“延遲滿足”,爽感增倍

      精彩分享快樂
      2026-05-13 12:05:07
      特朗普談臺灣問題又不一樣了,他在接受采訪時說

      特朗普談臺灣問題又不一樣了,他在接受采訪時說

      小馬姨
      2026-05-14 08:06:39
      江怡臻說,腳踏進人民大會堂,整個人就“戰(zhàn)戰(zhàn)兢兢,如履薄冰”了

      江怡臻說,腳踏進人民大會堂,整個人就“戰(zhàn)戰(zhàn)兢兢,如履薄冰”了

      果媽聊娛樂
      2026-04-16 09:19:20
      未婚女孩隱私部位膿腫南京明基醫(yī)院要求住院手術 女孩換家三甲醫(yī)院開了4塊錢藥治好

      未婚女孩隱私部位膿腫南京明基醫(yī)院要求住院手術 女孩換家三甲醫(yī)院開了4塊錢藥治好

      墜入二次元的海洋
      2026-05-15 19:16:40
      曹操撩寡婦時說的金句,如今成了約會開場白,男人經常掛在嘴邊

      曹操撩寡婦時說的金句,如今成了約會開場白,男人經常掛在嘴邊

      掠影后有感
      2026-05-11 11:31:38
      英媒:拉特克利夫凈資產下降18億英鎊,持曼聯29%股份值14億

      英媒:拉特克利夫凈資產下降18億英鎊,持曼聯29%股份值14億

      懂球帝
      2026-05-15 19:20:07
      《給阿嬤的情書》預測破10億!賈玲包場好體面,李現力推好真誠

      《給阿嬤的情書》預測破10億!賈玲包場好體面,李現力推好真誠

      娛樂故事
      2026-05-15 20:51:24
      iPhone 17 Pro降價2000元引爆熱搜:實際疊加以舊換新才能做到

      iPhone 17 Pro降價2000元引爆熱搜:實際疊加以舊換新才能做到

      大唐
      2026-05-15 15:08:56
      特朗普亮出頭號成績單,宣布中方采購200架波音,還說了句真心話

      特朗普亮出頭號成績單,宣布中方采購200架波音,還說了句真心話

      順靜自然
      2026-05-15 23:48:04
      湖人無腦舉動惹怒詹姆斯:他們讓人匿名評估詹姆斯應得多少薪資

      湖人無腦舉動惹怒詹姆斯:他們讓人匿名評估詹姆斯應得多少薪資

      愛體育
      2026-05-15 22:54:46
      怪不得劉律建議毛巾少爺去二叔化,原來周揚青早點破他被家族綁定

      怪不得劉律建議毛巾少爺去二叔化,原來周揚青早點破他被家族綁定

      一盅情懷
      2026-05-15 17:10:38
      2026-05-16 00:19:00
      中國人工智能學會
      中國人工智能學會
      中國人工智能學會網易官方賬號
      4039文章數 1489關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      特朗普稱中方同意購買200架波音飛機 外交部回應

      頭條要聞

      特朗普稱中方同意購買200架波音飛機 外交部回應

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態(tài)度原創(chuàng)

      旅游
      房產
      健康
      教育
      軍事航空

      旅游要聞

      別只冬天去哈爾濱,五月花海才是正確打開方式!

      房產要聞

      老黃埔熱銷之下,珠江春,為何去化僅3成?

      專家揭秘干細胞回輸的安全風險

      教育要聞

      七中育才又新增3個校區(qū),個個有來頭

      軍事要聞

      烏克蘭首都基輔遭空襲 死亡人數增至12人

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久精品国产熟女亚洲av| 国产精品多P对白交换绿帽| 国产精品先锋资源在线看| 国产免费视频一区二区| 国产精品无码专区在线观看| 国产精品无码一二三视频| 精品乱码一区二区| 亚洲成av人片大线观看| 精品综合久久久久久97超人该| japan黑人极大黑炮| 91.www| 制服丝袜视频国产一区| 精品无码国产一区二区三区51安 | av专区在线| 中文久久AV影院| 亚洲高清无在码在线电影| 国产亚洲精品aaaaaaa片| 蜜桃狠狠色伊人亚洲综合网站| 暖暖 免费 在线 中文日本| 国产高清在线观看91精品| 四虎地址8848| 国产精品免费一级在线观看| 免费岛国av在线播放| 精品视频在线观看免费观看| 粉嫩一区二区三区色综合| 久久精品国产6699国产精| 天天摸天天做天天爽| 国产精品毛片va一区二区三区| 精品国产精品国产偷麻豆| 日本老熟欧美老熟妇| 九九热在线视频免费播放| 99在线观看视频| 日本男人精品一区二区| 综合激情丁香久久狠狠男同| 亚洲~V| 毛色444综合网| 日本男人精品一区二区| 亚洲美女高潮久久久久久久| 国产精品亚洲αv天堂| 亚洲综合精品一区二区三区 | 亚洲精品麻豆一二三区|