<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>

<p id="tp1vn"></p>

<sub id="tp1vn"><p id="tp1vn"></p></sub>

<u id="tp1vn"><rp id="tp1vn"></rp></u>

<meter id="tp1vn"></meter>

<wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>

日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao

<var id="zw4ja"></var>

^{<blockquote id="zw4ja"></blockquote>}

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴選
郵箱大師
網(wǎng)易云課堂

注冊免費郵箱

注冊VIP郵箱（特權(quán)郵箱，付費）
免費下載網(wǎng)易官方手機郵箱應(yīng)用

移動端
網(wǎng)易公開課
網(wǎng)易嚴選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

清華打造"世界模型考場"：一套系統(tǒng)讓AI導航員接受全方位駕考

2026-05-11 17:08:26　來源: 科技行者

天津舉報

0

分享至

這項由清華大學主導、聯(lián)合東北大學與華南理工大學共同完成的研究，發(fā)表于2026年第43屆國際機器學習大會（ICML 2026），地點為韓國首爾，收錄于PMLR第306卷。感興趣的讀者可以通過論文編號arXiv:2605.03941查閱完整原文。

**一個古老的問題：機器如何真正"理解"世界？**

有沒有想過，當你開車從家出發(fā)去超市，你的大腦其實在做一件相當了不起的事情：它不僅要處理眼前的畫面，還要根據(jù)你踩油門、打方向盤的動作，預(yù)測下一秒世界會變成什么樣子。向左打方向盤，視野就會偏右；踩下剎車，前方的景物就會緩慢停止迫近。這種"我做了什么動作，世界會怎么變"的預(yù)測能力，正是人類導航、駕駛、乃至日常行走的核心依賴。

把這種能力賦予機器，就是"世界模型"研究的終極目標。世界模型不是普通的視頻播放器，它更像一個可以互動的模擬世界：你給它一張初始畫面，然后輸入一系列動作指令，它就能生成你從該視角出發(fā)、按照那些動作移動后所看到的連續(xù)視頻畫面。如果它做得足夠好，這個模擬世界就可以用來訓練自動駕駛系統(tǒng)、培養(yǎng)機器人導航能力，甚至成為游戲引擎的替代品。

然而，研究這個領(lǐng)域的科學家們面臨一個棘手的困境：沒有一套公認的"考場"來檢驗世界模型的真實水平。這就好比全國各地的駕校都有自己的培訓方式，有人用模擬器練習，有人在空曠停車場繞圈，有人在真實道路上跑，但到了最后，誰也說不清楚這些學員放到同一條復(fù)雜山路上，究竟誰開得更好。正是為了解決這個"沒有統(tǒng)一考場"的問題，清華大學等機構(gòu)的研究團隊構(gòu)建了一套名為**iWorld-Bench**的綜合評測系統(tǒng)，并同步建立了一個包含33萬條高質(zhì)量視頻片段的訓練數(shù)據(jù)集，公開了包含4900個測試樣本的評測基準，還搭建了一個公開排行榜供全球研究者提交和對比成績。

**一、現(xiàn)有"考場"到底差在哪里**

在iWorld-Bench出現(xiàn)之前，研究界已經(jīng)有一些評測方案，但它們存在三個明顯的短板，用駕考類比來說，就是"考題太單一、評分標準不統(tǒng)一、最難的科目根本沒考"。

第一個問題是場景太單調(diào)?，F(xiàn)有評測數(shù)據(jù)集往往來自單一來源，視角幾乎清一色是行人視角，就好比駕考只考平路直行，完全不考山路、高速、雨天夜間等復(fù)雜工況。真實世界里的觀察視角其實非常多元：無人機俯瞰城市、地面機器人穿梭倉庫、第一人稱步行探索室內(nèi)空間、自動駕駛車輛在公路上奔跑——這些完全不同的視角對世界模型提出了截然不同的挑戰(zhàn)，卻被現(xiàn)有評測一并忽略。

第二個問題是"動作語言"不統(tǒng)一。不同的世界模型接受不同類型的控制指令。有些模型聽得懂自然語言，你對它說"向左轉(zhuǎn)"它就能生成對應(yīng)畫面；有些模型接受的是鍵盤按鍵信號，W代表前進、A代表左移；還有一些更精密的模型，接受的是攝像機內(nèi)外參數(shù)矩陣，就像給一臺專業(yè)攝影機精確設(shè)定焦距和位置坐標。這三類"動作語言"完全不同，直接拿來對比就好比讓一個只懂中文命令的司機和一個只懂英文命令的司機跑同一段賽程，然后比較圈速，結(jié)果根本沒有可比性。

第三個問題是"難科目"缺席。現(xiàn)有評測大多只考查視頻生成的視覺質(zhì)量，就像只看駕駛員開出去的車好不好看，卻不考查能不能按照規(guī)定路線走、也不考查司機的方向感和記憶力。特別是"記憶能力"這個關(guān)鍵維度——一個優(yōu)秀的世界模型應(yīng)該能記住它"走過的路"，在執(zhí)行"前進再后退"這類來回動作后，回到的畫面應(yīng)該和出發(fā)時的初始畫面保持一致。然而這種循環(huán)閉合能力在此前幾乎沒有被任何評測體系認真檢驗過。

**二、建造考場的第一步：準備一個多樣化的練習場**

建設(shè)iWorld-Bench的第一項大工程，是構(gòu)建一個足夠豐富的數(shù)據(jù)基礎(chǔ)——就像建駕校首先要有各種路況的練習場地。

研究團隊兵分兩路，同時開展數(shù)據(jù)收集工作。第一路是"整理舊檔案"：他們系統(tǒng)梳理了12個已有的高質(zhì)量公開數(shù)據(jù)集，這些數(shù)據(jù)集原本各自服務(wù)于不同目的。其中有傳統(tǒng)自動駕駛數(shù)據(jù)集，比如在德國卡爾斯魯厄市街道上采集的KITTI數(shù)據(jù)集，以及Waymo和nuScenes這兩個用于自動駕駛研究的大型數(shù)據(jù)集；有專門為三維場景重建設(shè)計的數(shù)據(jù)集，比如RealEstate-10K，它來自約8萬段YouTube視頻，為每一幀畫面都標注了攝像機的精確位置和朝向；有機器人巡檢數(shù)據(jù)集，比如密歇根大學校園里采集的NCLT數(shù)據(jù)集和TartanGround數(shù)據(jù)集；有無人機視角的數(shù)據(jù)集，比如TartanAir-V2；還有最新的世界模型專用數(shù)據(jù)集SpatialVid，規(guī)模高達18萬段視頻。

這12個數(shù)據(jù)集共同提供了超過23萬段視頻片段，但麻煩在于它們"說的語言"各不相同——坐標系統(tǒng)不統(tǒng)一，攝像機參數(shù)的表示方式也五花八門，有的用四元數(shù)表示旋轉(zhuǎn)，有的用六自由度向量，有的用標準變換矩陣。研究團隊花費了大量精力，將這些異構(gòu)數(shù)據(jù)全部統(tǒng)一轉(zhuǎn)換到同一個標準格式下，就像把不同國家的駕照全部換算成同一套規(guī)則體系。

第二路是"建設(shè)新賽場"：研究團隊選取了4個戶外城市仿真模擬器，在18個高質(zhì)量虛擬場景中自動采集數(shù)據(jù)。他們在這18個場景里手動選定了450個高質(zhì)量觀測點，然后根據(jù)預(yù)定義的動作空間設(shè)計了自動化采集程序，最終生成了10萬段1080P高清戶外視頻。為了保證數(shù)據(jù)質(zhì)量，他們還設(shè)計了一套兩階段過濾流程：第一階段在單幀層面檢測異常——如果某幀畫面突然過曝或出現(xiàn)顏色突變，就將其標記為異常幀；第二階段在時序?qū)用嬗媒y(tǒng)計方法剔除質(zhì)量不穩(wěn)定的片段，最終保留時間上連貫、視覺上穩(wěn)定的高質(zhì)量序列。

兩路數(shù)據(jù)匯合后，總量達到了33萬段視頻片段。這個數(shù)據(jù)集覆蓋了四種主要觀察視角：無人地面車輛視角、無人機俯瞰視角、人類行走第一人稱視角以及機器人視角。環(huán)境條件方面，戶外涵蓋9種天氣狀況，包括晴天、陰天、雨天、雨夜、雪天、雪夜、多云、部分多云和霧天；室內(nèi)則涵蓋5種光照條件，包括熒光燈、自然采光、昏暗燈光、暖光和人工照明。

數(shù)據(jù)集建好之后，還需要給每段視頻貼上標簽，方便后續(xù)檢索和任務(wù)設(shè)計。研究團隊調(diào)用了GPT-4o這個大型語言與視覺理解模型，為每段視頻自動生成包含室內(nèi)外判斷、場景描述、場景類別標簽、天氣或光照條件以及可見實體列表等字段的結(jié)構(gòu)化注釋。這一過程共處理了33萬段視頻，消耗了1.19億個輸入詞元和2186萬個輸出詞元，花費約518美元。

為了防止單一模型的偏差，團隊還引入了三個來自不同家族的驗證模型——Gemini 3.0 Flash、Qwen-VL-Max和Kimi-K2.5——對每條注釋獨立進行二元判斷。只要三個模型的意見不完全一致，該條注釋就會被標記為需要人工復(fù)核。最終，共有約6.14萬段視頻（占總量的18.6%）進入人工復(fù)核流程，10名志愿者耗費約1200人時完成審核，其中只有約3897段（約1.2%）需要實際修改。這套嚴格的多模型加人工驗證機制，保證了數(shù)據(jù)標注的高可信度。

**三、統(tǒng)一"考題語言"：動作生成框架**

數(shù)據(jù)準備就緒之后，iWorld-Bench面臨的最核心挑戰(zhàn)來了：如何讓接受不同類型控制指令的世界模型站上同一個考場？

研究團隊的解決方案是構(gòu)建一個"動作生成框架"，其核心思想可以用"建立一本萬能翻譯詞典"來理解。他們首先徹底梳理了第一人稱視角下所有可能發(fā)生的基本動作，將其分為兩大類：平移運動和旋轉(zhuǎn)運動。平移運動是攝像機在空間中的位置變化，包括靜止不動、向前、向后、向左、向右、向上、向下，以及它們兩兩或三三組合形成的復(fù)合動作，共27種，每種分配一個唯一的平移ID，編號從0到26。旋轉(zhuǎn)運動是攝像機朝向的變化，包括鏡頭向上仰、向下俯、向右轉(zhuǎn)、向左轉(zhuǎn)、順時針翻轉(zhuǎn)、逆時針翻轉(zhuǎn)，以及各種組合，同樣共27種，分配旋轉(zhuǎn)ID 0到26。平移和旋轉(zhuǎn)的全部組合構(gòu)成了一個包含729種動作的完整運動空間。

這個系統(tǒng)還為每種動作標注了"難度系數(shù)"，難度值D的取值范圍是1到6。單一參數(shù)變化的動作難度為1，兩個參數(shù)同時變化的難度為2，以此類推，難度值等于同時變化的自由度數(shù)目之和。完全靜止的狀態(tài)也被定義為難度1，納入動作空間之中。此外，系統(tǒng)還為每種動作標注了"有效性"——根據(jù)采集數(shù)據(jù)中各動作的出現(xiàn)頻率，將常見動作標記為有效（V=1），將罕見或異常動作標記為無效（V=0）。

由于部分世界模型不支持上下平移或攝像機滾轉(zhuǎn)等特殊運動，研究團隊聚焦于目前各類世界模型普遍支持的平移9種和旋轉(zhuǎn)9種，共81種基礎(chǔ)動作，建立了一個統(tǒng)一編碼映射詞典。這個詞典的神奇之處在于，它能夠?qū)⑼粋€動作同時表示為三種不同的"語言"：攝像機內(nèi)外參數(shù)矩陣（供精密攝像機控制型模型使用）、one-hot獨熱編碼鍵值（供鍵盤輸入型模型使用）以及自然語言文本描述（供文字指令型模型使用）。這樣，無論被測模型接受什么類型的輸入，評測系統(tǒng)都能將同一個動作翻譯成對應(yīng)的語言，實現(xiàn)真正公平的橫向?qū)Ρ?。這個框架還具備良好的可擴展性，未來如果出現(xiàn)新的輸入模態(tài)，只需在詞典中增加對應(yīng)的翻譯條目即可。

**四、六種考題，全面檢驗"駕駛能力"**

有了統(tǒng)一的動作語言，研究團隊從33萬段視頻中精心挑選了2100段高質(zhì)量視頻作為評測集，并據(jù)此設(shè)計了六種類型的考題，總計4900個評測任務(wù)。

前四種考題統(tǒng)稱"動作控制"系列，按難度分為四個級別。難度一考查最基礎(chǔ)的單自由度動作，包括靜止、前進、后退、左移、右移、鏡頭上仰、鏡頭下俯、鏡頭右轉(zhuǎn)、鏡頭左轉(zhuǎn)這9種基本動作，共設(shè)計1000個任務(wù)。難度二考查雙自由度組合動作，涵蓋24種不同的兩維度同時變化組合，例如向前同時鏡頭右轉(zhuǎn)，共設(shè)計1000個任務(wù)。難度三進入三自由度領(lǐng)域，覆蓋32種組合，例如向前向左同時鏡頭右轉(zhuǎn)，共1000個任務(wù)。難度四挑戰(zhàn)四自由度復(fù)雜動作，覆蓋16種組合，共1000個任務(wù)。這四個級別的總計4000個任務(wù)，專門用于考驗世界模型"聽指令行事"的精準程度。

第五種考題叫做"記憶能力"測試，這是整個評測體系中最有創(chuàng)意的設(shè)計。研究團隊設(shè)計了一系列"來回動作"路徑：讓模型先向前走一段，然后向后退同樣的距離，理論上應(yīng)該回到起點；或者先讓鏡頭向右轉(zhuǎn)，然后再向左轉(zhuǎn)回來，理論上應(yīng)該恢復(fù)到初始朝向。如果世界模型真的理解了空間結(jié)構(gòu)并且具備某種"記憶"，那么它生成的視頻在"來回"之后應(yīng)該能回到接近初始幀的視覺狀態(tài)。反之，如果模型只是在盲目生成幀，就會在返回路徑上產(chǎn)生明顯的視覺不一致。記憶能力任務(wù)共設(shè)計200個，覆蓋前進后退、后退前進、左移右移、右移左移、鏡頭上仰后下俯、鏡頭下俯后上仰、鏡頭左轉(zhuǎn)后右轉(zhuǎn)、鏡頭右轉(zhuǎn)后左轉(zhuǎn)、上升后下降、下降后上升等10種對稱動作配對。

第六種考題叫做"攝像機跟隨"測試，專門針對那些能夠接受精確攝像機內(nèi)外參數(shù)輸入的高精度控制模型。研究團隊從采集數(shù)據(jù)中整理出700個真實的攝像機軌跡文件，直接用這些精確的參數(shù)序列驅(qū)動模型生成視頻，然后考察模型對真實軌跡的跟隨精度。這個測試只有接受內(nèi)外參控制的7個模型才會參加，對其他類型的模型不適用。

**五、九把尺子，測量"駕駛水平"的不同維度**

光有考題還不夠，還需要一套客觀的評分標準。iWorld-Bench設(shè)計了9個評測指標，分屬三個維度，就像從視覺效果、路線精準度和方向記憶三個角度為考生打分。

視覺質(zhì)量維度包含四個指標。第一個是圖像質(zhì)量，使用一個專為多分辨率圖像設(shè)計的質(zhì)量評估模型MUSIQ對生成視頻的每一幀打分，然后取平均值，衡量畫面是否存在過曝、模糊、噪點等基本視覺缺陷。第二個是亮度一致性，將每幀畫面的像素灰度分為暗、中、亮三級，構(gòu)建一個三維亮度分布向量，然后計算視頻中每一幀與初始幀之間的相似度，衡量畫面亮度是否在整個視頻過程中保持穩(wěn)定，防止出現(xiàn)忽明忽暗的不自然閃爍。第三個是色溫約束，在HSV色彩空間中分析畫面的色調(diào)成分，將色調(diào)譜劃分為7個區(qū)間，計算整段視頻相對于初始幀的加權(quán)色調(diào)相似度，用于判斷場景的整體色彩氛圍是否保持一致，防止出現(xiàn)"室內(nèi)暖光突然變成戶外冷光"這類不合邏輯的色彩漂移。第四個是清晰度保持，使用一種叫做Tenengrad的方法分別計算畫面水平和垂直方向上的邊緣梯度強度，構(gòu)建一個二維清晰度向量，然后引入一個"噪聲感知熔斷機制"：當檢測到畫面中存在持續(xù)高噪聲時，系統(tǒng)會自動切換評分邏輯，對高頻噪聲偽裝成的"清晰感"加以懲罰，確保指標真正反映畫面細節(jié)的真實穩(wěn)定性。

軌跡跟隨維度包含三個指標。運動平滑度采用一種巧妙的間接測量方法：刪除生成視頻中所有奇數(shù)幀，然后用視頻插值模型重建這些被刪除的幀，接著計算重建幀與原始幀之間的感知相似度（LPIPS）、結(jié)構(gòu)相似度（SSIM）和像素均方誤差（MSE）。如果視頻運動本來就很流暢，插值重建應(yīng)該非常準確；如果視頻存在抖動或跳變，插值結(jié)果就會偏差很大。軌跡精準度則使用一個名為ViPE的視頻姿態(tài)估計工具，從生成的視頻中提取攝像機的運動軌跡，然后在運動切線空間中計算這條軌跡與原始指令序列的方向匹配程度，量化模型"按指令走"的精準度。軌跡容忍度專為擁有真實攝像機軌跡地面真值的攝像機跟隨任務(wù)設(shè)計，同樣使用ViPE提取生成軌跡，但這次對比的基準是精確的真實軌跡而非模糊的文字指令，因此能更純粹地衡量模型在理想控制條件下的物理執(zhí)行精度。

記憶能力維度包含兩個指標。記憶對稱性從像素層面評估來回動作的閉環(huán)效果：對于一段"先去后回"的視頻，將前半段第t幀與后半段對稱位置的第T-t+1幀進行像素級對比，計算均方誤差后轉(zhuǎn)換為相似度分數(shù)，并賦予距離視頻中點越遠的對稱幀對更高的權(quán)重，因為越接近視頻起末的幀更能直接反映記憶閉合的質(zhì)量。軌跡對齊則從運動方向?qū)用嬖u估對稱性：計算來回路徑上對稱位置的瞬時位移向量，理想情況下"去程"第t幀的位移方向與"回程"對應(yīng)幀的位移方向應(yīng)該正好相反，通過計算兩者的鏡像相似度來評估模型維持三維空間拓撲一致性的能力。

**六、十四個選手登臺，一場全面的"世界模型駕考"**

評測體系建立完成后，研究團隊邀請了14個代表性世界模型參加這場大規(guī)模評測，所有模型均在英偉達A800 GPU上運行推理。

參賽選手按控制方式分為三組。第一組是文字指令控制組，包含5個模型：英偉達的Cosmos-predict2.5、騰訊的HunyuanVideo-1.5、阿里的WAN 2.2、智譜的CogVideoX-5B-I2V，以及YUME 1.5。這類模型本質(zhì)上是視頻生成模型，通過文字描述來引導畫面變化，相當于你用自然語言告訴司機"往前開一段然后向右轉(zhuǎn)"。第二組是獨熱編碼控制組，包含2個模型：Matrix-Game 2.0和HY-World 1.5，它們接受的是按鍵信號，更像是通過鍵盤直接操控的電子游戲。第三組是攝像機參數(shù)精密控制組，包含7個模型：CameraCtrl、MotionCtrl、CamI2V、RealCam-I2V、VideoX-Fun-WAN、AC3D以及ASTRA，這類模型接受攝像機內(nèi)外參數(shù)矩陣，控制精度最高但技術(shù)門檻也最高。

**動作控制與記憶能力**部分的評測結(jié)果相當豐富，揭示了三類模型各自鮮明的特點。

在所有14個模型中，綜合得分最高的是HY-World 1.5，平均得分0.7873，在記憶能力和軌跡跟隨兩個維度都表現(xiàn)出色。這說明鍵盤離散信號控制方式在保證交互精準度方面具有明顯優(yōu)勢——與文字控制的CogVideoX-I2V相比，后者的軌跡精準度只有0.5950，而HY-World 1.5高達0.7472，差距相當顯著。這可以理解為：用模糊的自然語言"向左走一點"來控制模型，遠不如直接按下"A鍵0.5秒"來得精準。

文字控制組的模型展現(xiàn)出有趣的"揚長避短"特征。CogVideoX-I2V在亮度一致性上拿到了0.8988的高分，這是所有模型中最高的，說明這類模型在保持視覺質(zhì)量方面經(jīng)過了高度優(yōu)化。但代價是軌跡跟隨能力較弱，反映出"視覺生成"和"動作服從"這兩個目標之間存在一種內(nèi)在張力——模型在訓練時更傾向于學會生成漂亮的畫面，而不是精確執(zhí)行運動指令。

攝像機參數(shù)控制組中，VideoX-Fun-WAN綜合表現(xiàn)最為均衡，AC3D在記憶對稱性上一枝獨秀，得分高達0.9068，說明其架構(gòu)在維持長時間序列的空間拓撲一致性方面有獨特優(yōu)勢。相比之下，早期模型CameraCtrl和MotionCtrl在各項指標上全面落后于新一代模型，印證了該領(lǐng)域近幾年的快速進步。

一個耐人尋味的觀察出現(xiàn)在基礎(chǔ)模型與其微調(diào)版本的對比中。AC3D是從CogVideoX-I2V微調(diào)來的，HY-World 1.5是從HunyuanVideo-1.5微調(diào)來的。微調(diào)后的版本在軌跡跟隨能力上都有了顯著提升，但在視覺生成質(zhì)量上略有下滑。這清楚地揭示了當前世界模型訓練中的一個核心矛盾：專注于動作跟隨的訓練數(shù)據(jù)會增強可控性，但可能會消耗掉模型原本學到的視覺生成能力。如何在兩者之間找到平衡，是未來研究的重要方向。

**攝像機跟隨任務(wù)**的評測結(jié)果則進一步區(qū)分了精密控制組內(nèi)部各模型的差距。AC3D在這一任務(wù)中全面領(lǐng)先，軌跡容忍度達到0.9091，亮度一致性0.8927，運動平滑度0.9919，全部位居榜首。這說明它的架構(gòu)最善于將精確的攝像機參數(shù)轉(zhuǎn)化為邏輯連貫的視覺序列。ASTRA的表現(xiàn)則令人有些意外，軌跡容忍度只有0.4286，是參賽模型中最低的，相比之下RealCam-I2V雖然圖像質(zhì)量得分最高（0.5889），但軌跡容忍度也只有0.7480，再次印證了視覺質(zhì)量與動作可控性是兩個相對獨立的評測維度，模型在一個維度上的優(yōu)秀并不能自動保證另一個維度上的優(yōu)秀。

為了驗證這9個自動指標是否真的反映了人類的真實感受，研究團隊還開展了一項人類偏好驗證實驗。12名標注人員對14個模型生成的視頻進行了打分，每人對16個難度均勻分布的標準任務(wù)評分，總計收集了2688個評分數(shù)據(jù)點。統(tǒng)計分析顯示，自動指標綜合排名與人類偏好排名之間的斯皮爾曼等級相關(guān)系數(shù)為0.8053（對應(yīng)統(tǒng)計顯著性p值遠低于0.05的閾值），說明兩者高度一致。在14個模型中，排名差距超過5位的只有AC3D一個案例（客觀排名第4，人類偏好排名第9），原因分析表明AC3D極強的運動平滑度和記憶對稱性確實符合指標要求，但其偏低的圖像質(zhì)量（0.4573，接近所有模型最低值）讓人類觀看者感受到明顯的視覺不適，說明人類在整體評價時對視覺質(zhì)感的權(quán)重比對軌跡精準度更高。

說到底，iWorld-Bench做的事情，是為一個快速發(fā)展卻缺乏統(tǒng)一標準的技術(shù)領(lǐng)域立下了一塊重要的基準石。它的數(shù)據(jù)集夠大夠多樣（33萬段視頻，覆蓋4種視角、9種天氣、5種光照），它的評測框架夠公平夠全面（81種基礎(chǔ)動作的統(tǒng)一編碼、6類任務(wù)、9個指標），它找出的問題也夠深刻夠?qū)嶋H：世界模型在視覺生成和動作服從之間存在難以調(diào)和的矛盾，現(xiàn)有模型的空間記憶能力普遍有限，早期模型已經(jīng)全面落后而新一代模型還沒有達到人類期望的成熟度。

對于普通人來說，這些結(jié)論的意義在于：那些未來可能駕駛你出行的自動駕駛系統(tǒng)、那些可能在你家里幫你遞東西的家用機器人，它們的"大腦"還沒有真正準備好。它們可以生成漂亮的畫面，卻未必知道自己走了多遠；它們可以跟隨簡單的指令，卻往往忘記了自己從哪里出發(fā)。通過這套評測系統(tǒng)，研究界現(xiàn)在終于有了一把公認的尺子，可以清楚地看到差距在哪里，并朝著更可靠的方向努力。對這個話題感興趣的讀者，可以通過arXiv編號2605.03941找到原始論文，或者訪問iWorld-Bench.com查看持續(xù)更新的模型排行榜。

Q&A

Q1：iWorld-Bench評測的"世界模型"和普通視頻生成AI有什么本質(zhì)區(qū)別？

A：普通視頻生成AI主要根據(jù)文字描述生成視頻，是單向輸出。而iWorld-Bench評測的世界模型是可互動的：你給它一張初始圖像加上一系列動作指令（比如"向前走然后向左轉(zhuǎn)"），它要生成你真實按照那些動作移動后會看到的連續(xù)畫面，類似一個可以實時響應(yīng)操作的虛擬現(xiàn)實環(huán)境。這種雙向交互能力是世界模型的核心特征，也是iWorld-Bench重點考查的能力。

Q2：iWorld-Bench的記憶能力測試具體是怎么做的？

A：記憶能力測試的核心設(shè)計是"來回動作"路徑，共10種對稱動作配對，共200個任務(wù)。例如讓模型先向前運動一段距離，然后向后退相同距離，理論上應(yīng)該回到起點附近的視覺狀態(tài)。評測時會比較"去程"和"回程"上對稱時刻的畫面是否一致（記憶對稱性指標），以及兩段路徑上的運動方向是否互為鏡像（軌跡對齊指標）。如果模型缺乏空間記憶，返回路徑上的畫面就會和出發(fā)時明顯不同。

Q3：iWorld-Bench評測中表現(xiàn)最好的世界模型是哪個，差距大嗎？

A：在動作控制與記憶能力綜合評測中，HY-World 1.5排名第一，平均分0.7873；排名最后的是MotionCtrl，平均分0.5486。差距約0.24分，折合百分比約22個百分點。在專門針對攝像機參數(shù)精密控制的跟隨任務(wù)中，AC3D表現(xiàn)最佳，其軌跡容忍度0.9091與墊底的ASTRA（0.4286）之間差距超過47個百分點，說明不同模型在精密控制能力上的分化非常顯著。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

一個框架，重塑具身研發(fā)流程：Dexbotic走向具身PyTorch

機器之心Pro 2026-05-12 09:27:08
0 跟貼 0
DECS從源頭消除冗余思考，實現(xiàn)推理token減半且性能不降反升

機器之心Pro 2026-05-12 12:58:05
0 跟貼 0

北大校友Lilian Weng出鏡，爆出120億估值首個交互模型！

新智元 2026-05-12 12:37:23
1 跟貼 1

剛剛，Thinking Machines出手！首款交互模型來了，翁荔出鏡實測

機器之心Pro 2026-05-12 12:18:10
0 跟貼 0
00后小哥復(fù)刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

谷歌用上中國“神器”，AI+高質(zhì)量基因測序數(shù)據(jù)，讓基因變異無處隱藏

生物世界 2026-05-12 12:24:14
0 跟貼 0

拒絕大力出奇跡，PRISM框架讓dLLM也能高效Test-Time Scaling

機器之心Pro 2026-05-11 14:28:29
0 跟貼 0
踏進清華才明白，清華北大不等于升官發(fā)財！清華老師分析太透徹了

阿蘭回聲 2026-05-11 07:12:05
0 跟貼 0

清華偶遇學霸，不花錢幫忙解決幻方難題

小芳聊奇聞 2026-05-08 00:46:18
0 跟貼 0
650分考入清華卻創(chuàng)下清華最差招生記錄？聽聽清華老師怎么說

課桌動畫 2026-05-11 07:10:52
0 跟貼 0
唐湘龍：鷹擊的彈道軌跡很詭異，只要一發(fā)射，很難躲避或攔截！

錦升體娛 2026-05-10 02:05:23
63 跟貼 63
女子碩士入學清華后參與智力測驗，僅得25分

南昌晚報 2026-05-12 00:50:59
4 跟貼 4
孫子兵道：一將難求與將才矩陣

陳相靈TALK 2026-05-08 19:44:33
1 跟貼 1
一汽修店主只修特斯拉：其他新能源車三電不修怕被告

第一財經(jīng)資訊 2026-05-11 16:52:11
68142 跟貼 68142
清華學霸分享語文“急救”式快速提分秘訣

民生大參考 2026-05-11 05:49:16
0 跟貼 0
莎莎驚喜亮相清華，逗樂師娘引歡笑

繁花散盡m 2026-05-09 09:51:48
0 跟貼 0
低調(diào)的清華學子，戴著一套房在坐地鐵，多少人永遠達不到的高度

趣事收藏家 2026-05-12 09:23:38
2 跟貼 2
全中國只有清華和北大是一個沒有上限的地方？聽聽孟老師的分析

美鹿莎 2026-05-12 05:52:42
0 跟貼 0
清華大神有多牛？天才只是見他的門檻！

小信新鮮事 2026-05-12 01:45:53
0 跟貼 0
聽清華大學美女學霸脫稿發(fā)言，學到了很多東西，受益良多

歷史有張皮 2026-05-12 12:46:09
0 跟貼 0
“我從未拿過中國一分錢”——華裔數(shù)學家丘成桐，40年沒拿過

Mhisu 2026-05-11 11:45:24
0 跟貼 0
陳欣妍自曝與UFO意念互動，不再擔憂被視為精神異常

驕陽之夏明 2026-05-12 10:41:53
11 跟貼 11
智力測驗僅25分！女子考上清華研究生，追問醫(yī)生自己是否是弱智

鯨探所長 2026-05-12 09:33:29
2 跟貼 2
羽壇冠軍夫婦空降清華，在體育館揮拍切磋互動，這對小夫妻也太好磕了！

CQTV新視界 2026-05-09 23:28:27
0 跟貼 0
女子碩士入學清華后，參加智力測試僅得25分？當事人：學習、工作、創(chuàng)業(yè)我都沒有遇到困難，但我居然智力中下

河南都市頻道 2026-05-11 15:39:32
0 跟貼 0
宗熙先生：成功=努力+剩余

宗熙先生 2026-05-12 13:20:12
0 跟貼 0
女子快速路上發(fā)現(xiàn)1米多大蛇爬行

荔枝新聞 2026-05-12 00:24:18
131 跟貼 131
【AI大模型安全與評測】從DeepSeek-V4拆解真實評估邏輯，90%的人都搞錯了！企業(yè)級大模型評

盧菁老師 2026-05-09 09:07:47
0 跟貼 0
嘴炮王者譚sir竟被邏輯女帝反殺成渣：愿大姐被歲月溫柔以待

解壓小劇場 2026-05-09 08:17:50
384 跟貼 384
雖然是冷門了點，但勝在報考人數(shù)少啊

大嘴百磕 2026-05-11 18:33:43
3 跟貼 3
俞浩：我是保送清華的，中考高考研究生都沒考，三保送！

GAI周延 2026-05-12 01:40:53
0 跟貼 0
刀片豎起來過安檢機，安檢機完全看不到刀片的圖像，真的可以嗎

趣拍匣子 2026-05-09 16:07:42
1 跟貼 1
?；鸷蟮降装l(fā)生了什么？梳理伊朗破局美軍封鎖的戰(zhàn)術(shù)邏輯

北山戰(zhàn)史 2026-05-09 20:21:15
1 跟貼 1
Markdown 已死，HTML 當立？

愛范兒 2026-05-12 14:19:16
0 跟貼 0
上海誕生"新幣王"5083萬元成交目前存世僅七枚

看看新聞Knews 2026-05-11 22:19:07
2930 跟貼 2930
他信出獄搭車牌4444的車離開稱"現(xiàn)在什么也記不起來"

紅星新聞 2026-05-11 15:09:20
533 跟貼 533
為避稅老人把房過戶給孫子，不料導致親情決裂

看看新聞Knews 2026-05-11 17:44:08
898 跟貼 898
960萬人圍觀！Claude Code工程師談HTML“復(fù)興”：Agent時代，Markdown不夠用了

智東西 2026-05-12 12:41:12
0 跟貼 0
大學生驅(qū)車1300公里，送校友回家奔喪：自費5200多元，事后收到很多轉(zhuǎn)賬均婉拒

瀟湘晨報 2026-05-11 16:50:57
1060 跟貼 1060
法國新法落地：歸還?“260萬被搶文物”有多艱難？｜重建現(xiàn)場

新京報動新聞 2026-05-11 01:46:32
771 跟貼 771

湖人沒有三崩,打服雷霆!里斯夫大爆發(fā),大合同回來了,季后賽有希望

湖人沒有三崩,打服雷霆!里斯夫大爆發(fā),大合同回來了,季后賽有希望

去山野間追風

2026-05-12 13:19:22

連續(xù)2場上演輸2追3！梁靖崑被王皓調(diào)侃：梁教授這很符合你的專業(yè)

連續(xù)2場上演輸2追3！梁靖崑被王皓調(diào)侃：梁教授這很符合你的專業(yè)

風過鄉(xiāng)

2026-05-12 10:30:02

曝詹姆斯下賽季繼續(xù)征戰(zhàn)NBA！不確定留在湖人爭冠實力成第一考量

曝詹姆斯下賽季繼續(xù)征戰(zhàn)NBA！不確定留在湖人爭冠實力成第一考量

羅說NBA

2026-05-12 05:50:21

湯姆·漢克斯兒子住進拖車公園！月租僅400，直呼：干嘛住豪華公寓

湯姆·漢克斯兒子住進拖車公園！月租僅400，直呼：干嘛住豪華公寓

星野娛樂天地

2026-05-11 20:44:57

褪去張狂！松島輝空摘亞后理性發(fā)聲，直面中日乒壇實力鴻溝！

褪去張狂！松島輝空摘亞后理性發(fā)聲，直面中日乒壇實力鴻溝！

田先生籃球

2026-05-11 12:55:20

人大代表建議機關(guān)事業(yè)單位雙休制調(diào)整為“大周休3天，小周休2天”

人大代表建議機關(guān)事業(yè)單位雙休制調(diào)整為“大周休3天，小周休2天”

細說職場

2026-05-10 10:34:41

開了十年麻將館我算看透了！天天泡牌桌上的人，沒一個命好的

開了十年麻將館我算看透了！天天泡牌桌上的人，沒一個命好的

欣悅廣場舞

2026-04-17 16:25:41

特朗普：美伊?；鹫幱凇吧S持”狀態(tài)

特朗普：美伊停火正處于“生命維持”狀態(tài)

界面新聞

2026-05-12 12:31:34

揚眉吐氣史無前例！第一次把在任美國國務(wù)卿永久攔在中國國門外

揚眉吐氣史無前例！第一次把在任美國國務(wù)卿永久攔在中國國門外

雪中風車

2026-05-12 13:10:31

炸裂！漢坦病毒零號地大反轉(zhuǎn)，荷蘭夫婦冤了，游輪致命疫情藏秘密

炸裂！漢坦病毒零號地大反轉(zhuǎn)，荷蘭夫婦冤了，游輪致命疫情藏秘密

溫讀史

2026-05-11 10:05:45

查扣電動車全面叫停，工信部定調(diào)：民生剛需優(yōu)先，百姓要啥造啥

查扣電動車全面叫停，工信部定調(diào)：民生剛需優(yōu)先，百姓要啥造啥

墜入二次元的海洋

2026-05-12 06:15:38

普京今年紅場“只留自己人”？俄部長首次被擋在閱兵看臺外

普京今年紅場“只留自己人”？俄部長首次被擋在閱兵看臺外

桂系007

2026-05-09 21:09:41

國際足聯(lián)被曝愿作出“重大讓步”：官員正飛往中國，爭取讓央視購買今年世界杯的電視轉(zhuǎn)播權(quán)，并提出將報價降低50%以上

國際足聯(lián)被曝愿作出“重大讓步”：官員正飛往中國，爭取讓央視購買今年世界杯的電視轉(zhuǎn)播權(quán)，并提出將報價降低50%以上

大風新聞

2026-05-11 15:12:02

廣東19點35VS北京，杜鋒新首發(fā)五虎將出爐，2大奇兵或空降馳援

廣東19點35VS北京，杜鋒新首發(fā)五虎將出爐，2大奇兵或空降馳援

二哥聊球

2026-05-12 11:26:03

白人女性與黑人女性的體味差異，網(wǎng)友真實分享引發(fā)熱議

白人女性與黑人女性的體味差異，網(wǎng)友真實分享引發(fā)熱議

特約前排觀眾

2025-12-22 00:20:06

透支國人的信任，營銷創(chuàng)造的輝煌不會持久，對車企的反噬已經(jīng)開始

透支國人的信任，營銷創(chuàng)造的輝煌不會持久，對車企的反噬已經(jīng)開始

柏銘銳談

2026-05-10 11:51:33

為什么說陽痿、跑步、心梗，成了“斬殺”中年男性的“三件套”？

為什么說陽痿、跑步、心梗，成了“斬殺”中年男性的“三件套”？

醫(yī)藥養(yǎng)生保健報社

2026-04-28 17:59:19

研究表明：性生活次數(shù)不達標，不管男女容易早衰且癌癥風險增高！

研究表明：性生活次數(shù)不達標，不管男女容易早衰且癌癥風險增高！

黯泉

2026-05-03 20:25:37

NVIDIA、AMD還在堆料！一家小公司用28nm+DDR4單卡跑7000億大模型

NVIDIA、AMD還在堆料！一家小公司用28nm+DDR4單卡跑7000億大模型

快科技

2026-05-11 11:58:41

失眠真兇竟是缺鎂！扔掉牛奶蜂蜜，吃這2物酣睡到天亮

失眠真兇竟是缺鎂！扔掉牛奶蜂蜜，吃這2物酣睡到天亮

今日養(yǎng)生之道

2026-05-10 20:13:01

科技正在如何變革商業(yè)世界

8300文章數(shù) 563關(guān)注度

往期回顧全部

科技要聞

納德拉法庭爆料：拒當“AI時代的IBM”

頭條要聞

45歲獨身男子病逝15萬存款被指遭民政局轉(zhuǎn)走當?shù)鼗貞?yīng)

頭條要聞

45歲獨身男子病逝15萬存款被指遭民政局轉(zhuǎn)走當?shù)鼗貞?yīng)

體育要聞

總是掉鏈子的“倒霉蛋”，闖進了歐戰(zhàn)決賽

娛樂要聞

劉濤曬媽祖誕辰活動照評論區(qū)變許愿池

財經(jīng)要聞

黃仁勛真是被白宮徹底封殺了

汽車要聞

吉利銀河“TT”申報圖曝光電動尾翼+激光雷達

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

家居

手機

公開課

軍事航空

本地新聞

用蘇繡的方式，打開江西婺源

家居要聞

極簡主義下的居住場域與空間

多元生活此處無聲
菁英人居全能豪宅
流動的尺度打破家的形式主義

手機要聞

熱度不減：消息稱三星上調(diào)5月Galaxy S26標準/Ultra機型產(chǎn)量

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產(chǎn)30天

軍事要聞

知情人士披露：美國或考慮恢復(fù)對伊朗軍事行動

© 1997-2026 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務(wù) | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權(quán)投訴

無障礙瀏覽進入關(guān)懷版主站蜘蛛池模板： 91大神在线免费观看| 亚洲国产超清无码专区| 免费观看欧美猛交视频黑人| 亚洲色av天天天天天天| 国产精品一品二区三区的使用体验| 亚洲第一毛片18我少妇| 无码欧美黑人xxx一区二区三区 | 丝袜a片| 国产福利视频一区二区| 国产精品宾馆在线精品酒店| 麻豆国产成人av在线播放欲色| 免费无码高潮流白浆视频| 国产美女精品在线| 久久香综合精品久久伊人| 国产精品视频公开费视频| 午夜福利理论片高清在线观看 | 日本国产高清色www视频在线| 亚洲欧美中文字幕国产| 奇米精品视频一区二区三区| 免费视频爱爱太爽了激情| 亚洲最大网站免费在线观看| 亚洲综合视频一区二区三区| 最新免费av在线播放| 黑人巨大精品oideo| 日韩偷拍视频一区二区三区| 在线观看免费人成视频国产 | 成人伊人青草久久综合网| 制服丝袜亚洲在线| 久久狠狠高潮亚洲精品暴力打| 在线播放亚洲欧美日韩| 亚洲宗合| 欧美亚洲综合成人专区| 亚洲国产成人精品女人久| 手机av中文字幕| 成全我在线观看免费第二季| 国产九色AV刺激露脸对白| 久久97久久97精品免视看| 国产亚洲精久久久久久无码77777 伊人色综合九久久天天蜜桃 | www婷婷| 日韩成人一区二区三区在线观看 | 国产亚洲人成a在线v网站|

<acronym id="aheuf"><var id="aheuf"></var></acronym>

<var id="aheuf"><fieldset id="aheuf"></fieldset></var>

<blockquote id="aheuf"><td id="aheuf"></td></blockquote>