普林斯頓大學:強化學習實現(xiàn)視覺語言模型超百步游戲決策能力提升

2026-05-08 20:09:16　來源: 科技行者

天津舉報

分享至

這項由普林斯頓大學語言與智能實驗室（Princeton Language and Intelligence）主導、聯(lián)合復旦大學與清華大學研究人員共同完成的研究，于2026年5月以預印本形式發(fā)布，論文編號為arXiv:2605.00347。感興趣的讀者可以通過該編號在arXiv平臺查閱完整論文。

一、一個看似簡單的游戲，藏著一個深刻的AI難題

有沒有想過，讓一臺電腦"看著"游戲畫面，自己決定按哪個鍵，這件事到底有多難？

對于人類玩家來說，玩《超級馬里奧》幾乎是本能反應——看到前面有坑就跳，看到蘑菇怪就躲或踩。但對于一臺AI來說，這件事遠比我們以為的復雜。它必須先"看懂"畫面（馬里奧在哪？障礙物在哪？）、然后"想清楚"下一步該怎么辦（跳？走？還是等？），最后還得"準確執(zhí)行"。更難的是，這些決策不是做一次就結束的——一關游戲往往需要連續(xù)做出超過100個正確決策，任何一步出錯都可能導致前功盡棄。

普林斯頓大學的研究團隊正是以這個"小小游戲"作為切入口，研究了一個對AI領域來說意義深遠的問題：能不能用一種叫做"強化學習"的訓練方式，讓具備視覺和語言能力的大模型（也就是視覺語言模型，簡稱VLM）學會完成這種長達100步以上的復雜決策任務？

他們最終給出的答案，不僅僅是"可以"，還附帶了一套完整的方法論，以及一個名為Odysseus的開放訓練框架。

二、什么是視覺語言模型，它為什么適合玩游戲？

在正式講研究內(nèi)容之前，有必要先解釋一下"視覺語言模型"是什么。

你可以把它理解成一個既能"看圖"又能"說話"（或者說"思考"）的AI。給它一張圖片，它能描述里面有什么；告訴它一段文字，它能理解并回應。近年來，這類模型發(fā)展迅猛，已經(jīng)能處理相當復雜的視覺推理任務。

這類模型用于玩游戲，有一個天然的優(yōu)勢：它在被訓練成大模型之前，已經(jīng)"見過"海量的圖片和文字，積累了豐富的世界知識——比如"跳過水坑"是什么意思、"障礙物"通常長什么樣。這種"先天知識"讓它在面對游戲畫面時，不需要從零開始摸索，而是能調(diào)用已有的認知快速建立判斷。

然而，現(xiàn)有的研究存在兩個明顯局限：一是很多方法依賴大量人類示范數(shù)據(jù)（也就是讓AI模仿人類玩家的每一個操作），這既昂貴又難以大規(guī)模擴展；二是用強化學習訓練這類模型時，現(xiàn)有方法基本只能處理20到30步左右的短期任務，一旦任務變長，訓練就會變得不穩(wěn)定、效果也大打折扣。

普林斯頓團隊的核心貢獻，就是在這兩個局限上都取得了突破。

三、為什么選擇《超級馬里奧》作為訓練場？

研究團隊選擇的測試平臺是1989年發(fā)布的經(jīng)典Game Boy游戲《超級馬里奧樂園》（Super Mario Land）。這個選擇背后有清晰的考量。

《超級馬里奧樂園》游戲難度適中，但對AI來說并不簡單。它一共有12關，每一關的地圖布局、障礙物類型、敵人行為都各有不同。完成一關通常需要連續(xù)做出100步以上的決策——這比之前AI研究中常用的"迷宮尋路"（通常只需要5到30步）要復雜得多。

更重要的是，游戲中有很多需要精準時機判斷的操作，比如"剛好跳過那根高管道"或"在蘑菇怪沖過來的瞬間跳開"。這些操作即便對于頂尖的AI大模型也是難題——研究團隊測試了當前最先進的幾款商用模型，發(fā)現(xiàn)它們在零訓練的情況下，在這款游戲里的表現(xiàn)相當糟糕，往往在第一關就卡住。

與此同時，這款游戲體量小、運行輕便，非常適合做大規(guī)模的科學實驗和對照比較，而不像那些大型開放世界游戲需要消耗巨量算力。

四、AI是怎么"玩"游戲的？

在講訓練方法之前，先要理解AI是如何與游戲交互的。

研究團隊為AI設計了一套"看、想、做"的交互流程。每一步，游戲把當前畫面截圖發(fā)給AI，AI先把畫面放大8倍（因為原始分辨率太低，只有160×144像素，放大后效果更好），然后結合一段文字提示（告訴它游戲規(guī)則和可用的按鍵），開始工作。

AI的思考過程被分成三個明確的環(huán)節(jié)，分別用三個標簽包裹起來。第一個叫"感知"，AI要先描述它看到的畫面：馬里奧在哪里，附近有沒有敵人，有沒有坑或者障礙物。第二個叫"推理"，AI根據(jù)感知到的情況，一步步分析下一步該怎么做：是跳過障礙、往右走，還是等一下。第三個叫"動作"，AI輸出最終決定，比如同時按下"向右"和"跳躍"鍵。

按鍵的執(zhí)行也有講究。因為游戲每秒運行60幀，如果AI每幀都重新思考一次，畫面根本來不及有明顯變化。所以研究團隊設計了一個"幀跳過"機制：如果AI決定跳躍，就讓這個動作持續(xù)執(zhí)行15幀；如果是普通走路，就執(zhí)行5幀。這樣一來，AI每次決策都能在畫面上產(chǎn)生可觀察的效果。

整個游戲流程中，AI可以使用七種基本按鍵：跳躍、跑步、向上、向下、向左、向右以及什么都不做。每次最多同時按兩個鍵，因此組合起來能產(chǎn)生跑跳、跑步等復合動作。

五、訓練的核心難題：怎么讓AI從"亂按"變成"會玩"？

強化學習的基本邏輯并不復雜：AI做出一個決定，游戲給它一個反饋（做得好就加分，做得不好就扣分），AI根據(jù)這個反饋調(diào)整自己的策略，慢慢學會做出更好的決定。

在這個研究里，獎勵信號非常簡單：每一步，馬里奧在游戲地圖上向右移動了多少距離，AI就獲得多少獎勵。往右走得越多越好，原地不動或往左走則沒有獎勵甚至可能失去獎勵。這個設計簡潔而實用，直接反映了"通關進度"這個核心目標。

然而，把這套邏輯用到超過100步的長序列決策上，會遇到一個嚴峻的問題：**功勞歸因難題**。

以烤蛋糕打比方。如果你烤出了一個美味的蛋糕，但你在整個烘焙過程中做了上百個操作——加了多少糖、烤箱溫度設了多少、烤了多久——最終蛋糕好不好吃，到底是哪幾步的功勞？同樣地，馬里奧順利通過了某段關卡，到底是哪幾個按鍵操作的貢獻最大？

在只有20到30步的短任務里，這個問題還算好解決。但在100步以上的長任務里，前面某一步的決策對后面的影響可能要很久才能體現(xiàn)出來，AI很難搞清楚到底哪步做得好、哪步做得不好。

六、關鍵突破：一個小小的"評分助手"

研究團隊在對比了多種主流訓練方法后發(fā)現(xiàn)，當前最流行的幾種"不需要評分助手"的方法（技術上叫做"無評論家方法"，包括GRPO和Reinforce++）在長序列任務上表現(xiàn)很差，訓練過程極不穩(wěn)定，模型性能幾乎原地踏步。

這個現(xiàn)象的根本原因，正是上面提到的功勞歸因難題。沒有一個專門負責"評估當前局面好壞"的模塊，模型就很難有效地從長序列經(jīng)驗中學到東西。

于是研究團隊回到了經(jīng)典的PPO算法（一種廣泛使用的強化學習方法，全稱是"近端策略優(yōu)化"），并在此基礎上做了兩個關鍵改造。

第一個改造是引入了一個"輕量級的回合評分員"（技術上叫做"輕量級回合級評論家"）。它的工作非常專一：在每一步?jīng)Q策結束后，根據(jù)當前游戲畫面來評估"現(xiàn)在的局面值多少分"，也就是預測從當前位置出發(fā)，未來大概還能前進多遠。這個評分員不是另一個龐大的語言模型，而是一個小巧的卷積神經(jīng)網(wǎng)絡（CNN）——類似于早期深度學習里用來識別圖像的那種網(wǎng)絡。它結構簡單、運算快速，卻足以勝任這個工作。

為什么不用另一個大模型來做評分員？因為那樣會讓整個訓練系統(tǒng)的計算量幾乎翻倍，代價太高。而這個小巧的CNN評分員既能有效發(fā)揮作用，又不會帶來沉重的計算負擔。這是這項研究在工程設計上的一個精妙之處。

第二個改造叫做"正優(yōu)勢過濾"。簡單來說，在訓練時，如果某個決策被評估為"比預期更差"（技術上叫做"負優(yōu)勢"），就直接跳過不學習。只從"做得比預期好"的經(jīng)驗中更新模型。

這個設計的理由在于：研究團隊發(fā)現(xiàn)，從"失敗經(jīng)驗"中學習有時候反而會讓模型變得更不穩(wěn)定，就好像一個人反復回想自己的錯誤反而會越來越焦慮、表現(xiàn)越來越差。通過只聚焦于"做得好"的經(jīng)驗，訓練過程變得更穩(wěn)定，模型進步也更快。

實驗結果非常清晰：搭配了輕量CNN評分員和正優(yōu)勢過濾的PPO算法，其訓練穩(wěn)定性和最終性能，遠遠超過了所有無評分員的方法。

七、AI大模型 vs 從零開始的傳統(tǒng)AI：誰更省力？

確定了訓練方法之后，研究團隊還做了一個很有意思的對比實驗：直接用視覺語言大模型（已經(jīng)預訓練過）做強化學習，和從零開始訓練一個傳統(tǒng)深度強化學習模型，哪個更高效？

這個問題背后有一個直覺上合理的假設：預訓練的大模型已經(jīng)"見過世界"，它知道"跳躍"這個概念、知道"障礙物要繞開"，這些先驗知識應該能幫助它在游戲中更快找到正確策略。

實驗結果證實了這個假設。對于從零開始訓練的傳統(tǒng)模型，研究團隊提供了兩種版本：一種使用原始動作空間（包含22種按鍵組合），另一種使用經(jīng)過人工精心設計的簡化動作空間（只保留8種最常用的按鍵組合，更貼近人類玩法）。

結果是，原始動作空間版本的傳統(tǒng)AI學得極慢，因為22種組合太多了，像是在一本厚厚的菜單里隨機點菜，大多數(shù)嘗試都是無效的。精簡動作空間之后，傳統(tǒng)AI的學習速度大幅提升，但即便如此，它仍然比預訓練大模型的版本需要大約多消耗一倍的訓練樣本才能達到相近的性能。

更值得注意的是，大模型版本根本不需要人工設計動作空間——它憑借自身的語言理解能力，自然就知道"向右跳躍"是有意義的組合，而"同時按左和右"沒有意義。這種"免費的先驗知識"，正是預訓練大模型的核心優(yōu)勢所在。

八、Odysseus框架：把零散發(fā)現(xiàn)變成一套完整的訓練流水線

有了上述關鍵發(fā)現(xiàn)，研究團隊進一步把它們整合成一個完整的訓練框架，命名為Odysseus（奧德修斯——希臘神話中以智慧和旅途艱險著稱的英雄，呼應了這項研究在漫長序列中探索決策的主題）。

Odysseus的訓練流程分為兩個階段，就像一個廚師先打好基本功、再在實戰(zhàn)中精進廚藝。

第一階段叫做"監(jiān)督學習初始化"。研究團隊發(fā)現(xiàn)，即使是8B參數(shù)級別的開源大模型（他們使用的是Qwen3-VL-8B-Instruct），在面對《超級馬里奧樂園》時也有認知盲區(qū)——比如，有時候分不清馬里奧和敵人，或者無法準確判斷角色在屏幕上的位置。這是因為游戲畫面在模型的預訓練數(shù)據(jù)中出現(xiàn)得很少。

為了解決這個問題，研究團隊從兩段游戲通關視頻中隨機抽取了約5000幀畫面，然后用更強大的GPT-o3模型為每幀畫面生成高質(zhì)量的"看、想、做"三段式注釋（描述畫面、分析情況、給出操作建議）。用這些數(shù)據(jù)對模型做了一輪輕量級的監(jiān)督學習，讓模型先對游戲場景建立基本的感知和理解能力。

這個階段的目標不是讓模型學會"怎么贏"，而是讓它學會"看懂游戲"。就像一個新手廚師，在上灶之前先要認識食材——哪個是鹽哪個是糖。至于如何炒出一盤好菜，則留給第二階段。

第二階段是強化學習。用第一階段訓練好的模型作為起點，在游戲的前五關同時進行訓練，采用前面提到的PPO加輕量CNN評分員加正優(yōu)勢過濾的組合。

同時訓練多關的時候，有一個微妙的問題：不同關卡難度不同，簡單關卡的游戲局通常更長（因為馬里奧能活得更久），如果不加處理，簡單關卡的數(shù)據(jù)就會在訓練批次里占據(jù)更多比例，導致模型把大部分學習資源花在容易的關卡上，卻忽視了困難關卡。

為此，研究團隊設計了一套"自動課程"機制：在每次收集完訓練數(shù)據(jù)后，統(tǒng)計各關卡的平均游戲局長度，然后在下一批訓練中，對平均局長更短（說明更難、AI在這關表現(xiàn)更差）的關卡分配更多的訓練資源，對平均局長更長（說明更容易）的關卡減少資源投入。這樣，整個訓練過程會動態(tài)地向更難的關卡傾斜，避免模型在容易的關卡上原地踏步。

九、最終成績：碾壓頂級商用模型

訓練完成后，研究團隊進行了全面的性能測試，結果相當亮眼。

他們把Odysseus與多款頂級商用模型在游戲前五關上進行了對比，衡量指標是"馬里奧從關卡起點向右走了多遠的距離"（稱為游戲進度）。GPT-5.4（OpenAI的頂級模型）的平均成績約為310，GLM-4.6V（智譜AI的旗艦多模態(tài)模型）的成績約為513，Qwen3-VL-8B-Instruct基礎模型（Odysseus的起點）的成績約為270，而Odysseus訓練后的成績達到了約1512。

換句話說，Odysseus的表現(xiàn)比GPT-5.4高出約5倍，比GLM-4.6V高出約3倍，比自己的訓練起點高出約6倍。從每關的詳細數(shù)據(jù)來看，Odysseus在所有五個訓練關卡上都取得了大幅領先，有些關卡的進度甚至接近該關卡的理論最大值。

研究團隊還對比了兩個簡化版本：只做了監(jiān)督學習初始化、沒有強化學習的"Odysseus-SFT"，以及只做了強化學習、跳過初始化步驟的"Odysseus-Zero"。結果顯示，單獨的監(jiān)督學習初始化并不能明顯提升游戲成績（約261分，和基礎模型的270分差不多）；而跳過初始化直接做強化學習的版本成績約為1355分，已經(jīng)相當不錯，但仍比完整版的Odysseus（1512分）低一些。這證明了兩個階段的組合是必要的——監(jiān)督學習打好基礎，強化學習實現(xiàn)質(zhì)的飛躍，兩者缺一不可。

十、學會了馬里奧，還能玩其他游戲嗎？

一個成功的AI系統(tǒng)不應該只會死記硬背，還要有舉一反三的能力。研究團隊對Odysseus的泛化能力進行了三個層次的測試。

第一個層次是"同款游戲、不同起點"。研究團隊手動收集了訓練關卡（前五關）中的50個非訓練起點狀態(tài)，測試Odysseus從這些狀態(tài)出發(fā)能走多遠。結果顯示，相比基礎模型，Odysseus平均提升了32.2%。

第二個層次是"同款游戲、從未見過的關卡"。他們在剩余五個訓練中從未出現(xiàn)過的關卡里，同樣手動收集了50個狀態(tài)進行測試。Odysseus的平均提升幅度達到41.5%，甚至比在訓練關卡上的提升幅度還要大——這說明模型學到的不只是某些特定關卡的"套路"，而是更通用的游戲感知和決策能力。

第三個層次是"完全不同的游戲"。研究團隊把Odysseus放到了另一款馬里奧游戲《超級馬里奧兄弟》（Super Mario Bros.）的全部32關中進行測試。這款游戲的視覺風格、關卡設計和《超級馬里奧樂園》都有明顯不同。結果是，Odysseus在這32關上平均比基礎模型提升了23.1%。

這意味著，Odysseus不僅僅在背《超級馬里奧樂園》的"劇本"，而是真的在某種程度上學到了更普遍的"玩橫版動作游戲"的思維方式。

十一、學了游戲，會不會忘記其他本領？

這是一個非常合理的擔憂：一個模型花了幾千萬次游戲交互來學玩馬里奧，會不會變成一個"只會玩游戲"的偏科生，在其他任務上變差？

為了驗證這一點，研究團隊在三個通用多模態(tài)基準測試上評估了Odysseus系列模型。這三個測試分別考察多學科視覺推理能力（MMMU）、數(shù)學視覺推理（MathVision）和現(xiàn)實世界空間理解（RealWorldQA）。

結果非常讓人放心：Odysseus及其各個變體在這三個測試上的成績，和訓練前的基礎模型幾乎完全相同。MMMU上基礎模型得69.00分，Odysseus得70.77分；MathVision上基礎模型54.64分，Odysseus得53.52分（略有下降但在誤差范圍內(nèi)）；RealWorldQA上兩者都是71.11分。總體而言，大量的游戲訓練既沒有讓模型變聰明，也沒有讓它在其他領域變笨——它保住了自己的"老本行"。

這個結論對于將來把強化學習應用到更多實際場景中非常重要：你可以針對某個特定任務對大模型進行深度強化學習訓練，而不必擔心這會損害模型在其他任務上的能力。

十二、這一切對AI的未來意味著什么？

歸根結底，這項研究的意義不僅僅在于"讓AI學會了玩馬里奧"。它回答了一個更基礎、更重要的問題：強化學習能不能被可靠地用于訓練視覺語言大模型去完成復雜的長序列決策任務？

在這項研究之前，答案是模糊的。現(xiàn)有方法要么依賴大量人工示范數(shù)據(jù)，要么只能處理幾十步以內(nèi)的短任務，用在100步以上的長任務上就會出現(xiàn)訓練不穩(wěn)定、效果不好的問題。

這項研究給出的答案是：可以，但需要正確的配方。正確的配方包括三個關鍵成分：一個專為長序列任務設計的輕量評分員（CNN回合級評論家）、一個只從好經(jīng)驗中學習的機制（正優(yōu)勢過濾），以及一個能在多任務之間自動平衡學習資源的動態(tài)課程（基于逆軌跡長度加權的自動課程）。

更深層的啟示在于：預訓練大模型身上積累的海量世界知識，是一筆巨大的財富。當你把這筆財富和強化學習結合起來，就能以遠比"從零開始"少得多的訓練成本，實現(xiàn)復雜的決策能力——大約只需要一半的訓練數(shù)據(jù)，而且不需要人工精心設計動作空間。

這項研究為將來開發(fā)能在復雜動態(tài)環(huán)境中自主行動的AI代理，提供了一套經(jīng)過驗證的、可復現(xiàn)的技術路線圖。Odysseus作為一個開放框架，也意味著其他研究者可以在此基礎上繼續(xù)推進，無論是更復雜的游戲、更長的任務，還是真實世界的操控場景。

當然，這項研究也有其局限性。目前的訓練只在游戲的前五關進行，測試到全部12關的全面泛化效果還需要進一步驗證。此外，AI的游戲進度雖然大幅超越了商用頂級模型，但距離熟練人類玩家的水平仍有差距——畢竟人類玩家哪怕從沒玩過這款游戲，通常也能比較輕松地通關。這說明在感知精度、時機判斷等方面，AI還有相當大的提升空間。

Q&A

Q1：Odysseus用的是什么基礎模型，訓練量有多大？

A：Odysseus以Qwen3-VL-8B-Instruct作為基礎模型，這是一款開源的80億參數(shù)視覺語言模型。整個強化學習訓練階段總共進行了約數(shù)千萬次游戲交互，訓練步數(shù)約為190步（每步包含1024條游戲軌跡）。監(jiān)督學習初始化階段則使用了約5058條數(shù)據(jù)，只訓練了1個完整輪次，非常輕量。

Q2：正優(yōu)勢過濾是怎么工作的，為什么有效？

A：正優(yōu)勢過濾的意思是：在訓練時，如果某一步?jīng)Q策被評為"比預期更差"（即優(yōu)勢值為負），就直接跳過，不用這條經(jīng)驗來更新模型。只有當某步?jīng)Q策比預期做得更好時，模型才從中學習。研究發(fā)現(xiàn)，負優(yōu)勢樣本容易引起訓練不穩(wěn)定——模型試圖"避免做壞事"有時反而會讓整體表現(xiàn)下滑。過濾掉這些樣本后，訓練曲線更平滑，最終性能也更好。

Q3：超級馬里奧樂園里的獎勵信號是怎么設計的？

A：獎勵信號設計得非常簡單直接：每一步，馬里奧在游戲地圖橫軸方向（即向右）前進了多少距離，AI就獲得多少獎勵分數(shù)。具體來說，用游戲內(nèi)存中馬里奧當前的X坐標減去上一步的X坐標。向右前進就有正獎勵，原地不動或后退則沒有正獎勵。這種設計不需要人工標注"哪一步做得好"，完全由游戲狀態(tài)自動生成，是一種稀疏而密集的混合信號，適合長序列訓練。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.