<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      AI能自己打紅警了!經濟拉滿零交戰慘遭打臉,玩家笑瘋

      0
      分享至


      新智元報道

      編輯:犀牛 所羅門

      【新智元導讀】紅警不再只是童年游戲,而成了AI Agent的硬核訓練場:OpenRA-RL把25Hz實時戰場、50個工具調用和64局并發打包開源,讓大模型第一次真正站上RTS戰爭迷霧里的公開考場。

      AI能自己打紅警了。


      Hugging Face 剛扔出一個炸彈——OpenRA-RL,直接把經典 RTS《紅色警戒》改造成了大模型的 Agent 訓練場。


      不是套個殼錄段視頻那種玩具級 Demo,是真·基礎設施級別的東西——

      50 個 MCP 游戲工具全量暴露,25Hz 實時狀態流不間斷推送,單進程 64 局并發訓練,LLM、腳本 Bot、強化學習 Agent 三條路線全部打通。

      更狠的是,它直接原生接入 OpenEnv 生態——TRL、torchforge、Unsloth 訓練框架即插即用。

      當年 DeepMind 的 AlphaStar 打星際、OpenAI Five 打 Dota,靠的是幾千塊 TPU 和完全不可復現的定制架構。

      普通研究者連門在哪都找不到。

      而現在,開源社區第一次把 RTS Agent 訓練的門檻一腳踹到了地上——一臺消費級顯卡,一行pip install openra-rl,你就能站在同一條起跑線上。


      實戰:經濟滿分,戰斗零蛋

      讓我們看看實戰。

      團隊用 Ollama 本地部署了一個 Qwen3 32B 模型,在 128×128 的盟軍地圖上對陣游戲內置的 Beginner AI,跑了 5 局。

      Agent 通過 MCP 工具集接收結構化觀測、發出動作指令,每局前有策略規劃階段,結束后有反思復盤,從中提煉的經驗會注入下一局的系統提示。

      結果:全部以平局告終,零次戰斗交鋒。


      Agent 在每一局都成功建起了經濟體系,但從未生產出一支進攻部隊。

      有趣的是,如果只看勝負,5 局全平,故事就講完了。

      但 OpenRA-RL 提供了 8 維獎勵向量,畫面一下就豐富了:經濟維度得分 0.58-0.80,基建表現穩定,但戰斗和騷擾兩個維度是干脆的零

      這就是一個精確的失敗模式診斷——你能據此設計獎勵塑形和課程學習策略。

      下面這段 Game 5 前 10 回合的決策日志,能直觀看到模型的「思考節奏」:

      Turn  1 | get_faction_briefing()Turn  2 | end_planning_phase(strategy=「」Deploy MCV, build Power       Plant (300 ticks), then Barracks/War Factory (500/750),       train E1 + 1tnk, attack AI base at (64,64).「」)Turn  3 | deploy_unit(unit_id=120)Turn  4 | build_and_place(building_type=「」apwr「」)Turn  5 | advance(ticks=100)       -> tick=55,  cash=$5000, units=0, buildings=1Turn  6 | build_and_place(building_type=「」apwr「」)Turn  7 | build_and_place(building_type=「」powr「」)Turn  8 | advance(ticks=60)       -> tick=108, cash=$4923, units=0, buildings=1Turn  9 | advance(ticks=130)       -> tick=159, cash=$4838, units=0, buildings=1Turn 10 | advance(ticks=80)       -> tick=210, cash=$4753, units=0, buildings=1

      三段式節奏清晰可見:情報+規劃 → 建造經濟 → 用advance快進來彌合 LLM 推理延遲和游戲速度之間的鴻溝。

      工具調用分布也印證了這一點——advance占了全部調用的約 57%,這正是異步架構設計的核心價值所在。

      另一個耐人尋味的細節:第 2 局的賽后反思發現了「戰爭工廠應該排在發電廠后面」這個建造順序錯誤,到第 4 局開局計劃確實改成了先建發電廠。

      提示注入式學習能修復建造順序,卻填不上戰斗維度的零分——這恰恰就是從上下文適應到權重更新式強化學習應該產生可量化提升的地方。

      為什么是紅警?為什么是現在?

      為什么偏偏選紅警當訓練場?

      先看一個問題:一個前沿大模型,不做任何RTS專項訓練,能在即時戰略游戲里撐多久?

      誠實的回答是:沒人知道。

      因為現有的 RTS 平臺壓根就不支持 LLM Agent。

      SC2LE、PySC2 這些經典框架默認你的 Agent 在毫秒級別行動,動作空間是低層操作。

      LLM 的需求恰恰相反——它需要高層接口、異步交互,以及對推理延遲從 40 毫秒到好幾秒劇烈波動的容忍。

      硬把 LLM 往老框架上嫁接,能跑是能跑,但結果不可比較,別的團隊也沒法復現。

      OpenRA-RL 選了經典 Westwood RTS《紅色警戒》作為底座,基于開源項目 OpenRA 魔改游戲引擎。

      理由很樸素:策略深度夠,代碼干凈能改,自帶從 Beginner 到 Hard 的 AI 對手梯隊。

      最終的效果是,你拿 Qwen3、Claude 還是一個 Python 腳本 Bot 來對打,都是同一個環境、零改動。

      三明治架構

      OpenRA-RL 的架構可以用「三層三明治」來理解:

      最底層是魔改過的 OpenRA 游戲引擎,用 C# 寫的,以約 25Hz 的頻率不停跳動游戲心跳。

      中間是 gRPC 橋接層,實時往外推送觀測數據、接收操作指令。

      最上層是 Python 封裝,對外暴露 Gymnasium 風格的reset / step / close接口。

      在此之上,MCP 服務器把 50 個游戲動作暴露為工具,任何兼容 MCP 的 LLM 客戶端都能驅動一局游戲。


      這套分層的核心目的只有一個:Agent 的計算和游戲的執行完全解耦。

      一個 40 毫秒一步的腳本 Bot 和一個 2 秒一步的 LLM,跑在同一個 25Hz 引擎上,互不干擾。

      64 局并發:一個進程搞定

      訓練和大規模評估需要大量并發對局。

      早期 v1 版本一局游戲開一個 .NET 進程,跑 64 局需要約 40GB 內存,每次重置要 5-15 秒——完全不能用。

      v2 版本的核心優化是:一個 .NET 進程承載 64 個會話。

      關鍵發現是 ModData(單位屬性、建筑參數、科技樹、地圖規則)在初始化后不可變,加載一次就能跨會話無鎖共享。

      僅此一項就回收了約 35GB 內存。

      每個會話保留獨立的 World、OrderManager 和 BotBridge,彼此隔離。

      結果相當暴力:重置延遲從 5-15 秒降到 256 毫秒(快了約 40 倍),64 會話總內存從約 40GB 降到約 6GB(省了約 7 倍),JIT 編譯從 64 次降到 1 次。

      真正重要的事

      OpenRA-RL 真正重要的不是讓一個大模型在紅警里造了幾座發電廠。

      更重要的是:這個訓練場夠硬、夠準、夠開放。

      環境本身有真實的策略深度——320 億參數的前沿模型對陣最弱 AI,5 局打下來零交戰,連一次進攻都沒發起過。新手難度的紅警就足以暴露大模型在建造順序、兵種搭配、進攻時機上的短板。

      而且暴露得很精確:如果只看勝負,5 局全是平局,一個字就講完了;但 8 維獎勵向量會告訴你,經濟得分 0.58-0.80,基建表現不錯,戰斗和騷擾是干脆的零——弱點在哪、課程設計往哪開刀,一目了然。

      團隊在博客里列出了幾個明確的下一步方向:

      • 基于 Qwen3 基線跑 GRPO(同一個 Agent,權重更新替代提示注入,看戰斗零分能不能動起來);

      • 利用 8 維獎勵做課程設計(從只需要戰斗維度的場景開始,逐級往上爬);

      • 跨模型橫評(Claude Sonnet、GPT 級模型、更小的本地模型,同一張地圖、同一個對手、同一個時間限制);

      • 以及 Agent 對 Agent 的排行榜競技。


      對于 AI Agent 領域來說,這套工具的意義遠不止紅警本身。

      AlphaStar 和 OpenAI Five 證明了 AI 能在 RTS 里達到超人水平,但那些成果被鎖在高墻之后——幾千塊 TPU、定制架構、不可復現。

      OpenRA-RL 第一次把這堵墻推倒了一部分:一臺消費級顯卡,一行pip install,你就站在了 RTS Agent 研究的起跑線上。

      紅警是一個信號——這是強化學習該登場的地方。

      而現在,登場的門票終于不再只屬于 DeepMind 和 OpenAI 了。

      參考資料:

      https://huggingface.co/blog/jadetan/openra-rl%20GitHub%20-%20yxc20089/OpenRA-RL:%20Open%20Framework%20for%20AI%20Agents%20to%20play%20Red%20Alert%20through%20Reinforcement%20Le%20

      https://huggingface.co/spaces/openra-rl/openra-rl%20

      https://openra-rl.dev/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      梅西:我會一直踢到自己踢不動為止;西羅有點像我也不喜歡輸

      梅西:我會一直踢到自己踢不動為止;西羅有點像我也不喜歡輸

      懂球帝
      2026-05-08 22:09:49
      舉報一個查一個!耿同學舉報3位大學院長和教授,同濟院長被免職還差南開和中山

      舉報一個查一個!耿同學舉報3位大學院長和教授,同濟院長被免職還差南開和中山

      可達鴨面面觀
      2026-05-07 13:03:19
      牌匾被小朋友涂鴉 鎮政府回應:暫時不會更換。“人民”二字不僅寫在牌匾,更刻在了心底!

      牌匾被小朋友涂鴉 鎮政府回應:暫時不會更換。“人民”二字不僅寫在牌匾,更刻在了心底!

      閃電新聞
      2026-05-08 22:27:49
      主任落馬!引發前副主席公開舉報原局長

      主任落馬!引發前副主席公開舉報原局長

      群眾反映
      2026-05-08 11:57:17
      中央生態環境保護督察工作領導小組辦公室致函要求精準科學依法推進邊督邊改 嚴禁“一刀切” 切實減輕基層負擔

      中央生態環境保護督察工作領導小組辦公室致函要求精準科學依法推進邊督邊改 嚴禁“一刀切” 切實減輕基層負擔

      中國環境新聞工作者協會
      2026-05-08 16:08:34
      4只皮皮蝦花了1035元后續:店老板離世,真相曝出,顧客騙了全網

      4只皮皮蝦花了1035元后續:店老板離世,真相曝出,顧客騙了全網

      李晚書
      2026-05-08 16:09:22
      華人夫婦在美國豪宅離奇失蹤一年,兩個兒子因簽證問題返美受阻,豪宅面臨托管;3個月后兩人賬戶被竊取280萬美元

      華人夫婦在美國豪宅離奇失蹤一年,兩個兒子因簽證問題返美受阻,豪宅面臨托管;3個月后兩人賬戶被竊取280萬美元

      大風新聞
      2026-03-31 21:36:39
      評論丨“4只皮皮蝦1035元”店主去世,消費糾紛別變成人身攻擊

      評論丨“4只皮皮蝦1035元”店主去世,消費糾紛別變成人身攻擊

      紅星新聞
      2026-05-08 17:43:33
      摩托車撞倒3名過斑馬線行人致2死,“時速超120公里,事發時疑在飆車”,被害人家屬發聲

      摩托車撞倒3名過斑馬線行人致2死,“時速超120公里,事發時疑在飆車”,被害人家屬發聲

      澎湃新聞
      2026-05-08 18:05:26
      世乒賽一夜之間,歐洲2隊全出局!亞洲3隊進四強,國乒戰韓國變陣

      世乒賽一夜之間,歐洲2隊全出局!亞洲3隊進四強,國乒戰韓國變陣

      侃球熊弟
      2026-05-08 08:38:36
      Vidu Claw 開啟「百元出百萬級大片」時代:微信說句話,視頻就出片

      Vidu Claw 開啟「百元出百萬級大片」時代:微信說句話,視頻就出片

      愛范兒
      2026-05-07 19:39:32
      國務院一紙令下!六月起強制執行,騎電動車再也不用見警就躲了

      國務院一紙令下!六月起強制執行,騎電動車再也不用見警就躲了

      今朝牛馬
      2026-05-07 20:58:21
      “因惡意退貨太多整條街道被商家拉黑”!商家客服直言:“白嫖的太多”發122個包裹退94個;快遞員曾表示該街道從事直播行業的住戶較多

      “因惡意退貨太多整條街道被商家拉黑”!商家客服直言:“白嫖的太多”發122個包裹退94個;快遞員曾表示該街道從事直播行業的住戶較多

      每日經濟新聞
      2026-05-08 16:57:51
      鎖死海峽!阿聯酋突襲伊朗,埃及陣風戰機馳援:伊朗遭遇兇險包圍

      鎖死海峽!阿聯酋突襲伊朗,埃及陣風戰機馳援:伊朗遭遇兇險包圍

      知法而形
      2026-05-08 16:39:04
      日本航空拿下宇樹科技,轟動全球!

      日本航空拿下宇樹科技,轟動全球!

      新零售參考Pro
      2026-05-07 17:31:09
      許家印認罪10天后,“保護傘”終于被扒出,誰都別想跑!

      許家印認罪10天后,“保護傘”終于被扒出,誰都別想跑!

      歷史偉人錄
      2026-05-08 17:54:57
      莫斯科機場癱瘓百架航班被取消!烏克蘭無人機將參加紅場閱兵

      莫斯科機場癱瘓百架航班被取消!烏克蘭無人機將參加紅場閱兵

      項鵬飛
      2026-05-08 19:27:41
      114國拒絕簽字,美式“全球標準”遭群嘲,中國禁令已先行3天

      114國拒絕簽字,美式“全球標準”遭群嘲,中國禁令已先行3天

      流史歲月
      2026-05-08 13:40:32
      重磅!多名中國兩院院士被除名或帶走調查!

      重磅!多名中國兩院院士被除名或帶走調查!

      深度報
      2026-05-08 22:40:42
      “我媽有兩個‘老公’”,OPPO就母親節文案致歉:創作初衷,是希望打破刻板印象,呈現更多元、更立體的當代母親形象,已下架相關物料

      “我媽有兩個‘老公’”,OPPO就母親節文案致歉:創作初衷,是希望打破刻板印象,呈現更多元、更立體的當代母親形象,已下架相關物料

      揚子晚報
      2026-05-08 17:38:48
      2026-05-09 01:28:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15163文章數 66850關注度
      往期回顧 全部

      游戲要聞

      魔獸世界:包片拼車成潮流,分片不均爭議不斷,誰該承擔風險?

      頭條要聞

      外籍銀行高層在香港豪宅性虐及殺害兩女子 內幕解密

      頭條要聞

      外籍銀行高層在香港豪宅性虐及殺害兩女子 內幕解密

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      估值3000億 DeepSeek尋求500億元融資

      科技要聞

      SK海力士平均獎金600萬 工服成相親神器

      汽車要聞

      MG 4X實車亮相 將于5月11日開啟盲訂

      態度原創

      房產
      家居
      數碼
      健康
      時尚

      房產要聞

      豪擲6.8億拿地!何猷君大手筆投資三亞!

      家居要聞

      流動的尺度 打破家的形式主義

      數碼要聞

      華碩京東重磅新品日,華碩天選7系列游戲本開啟預約

      干細胞能讓人“返老還童”嗎

      衣服其實沒有必要買很貴,準備這三件基礎款,百搭實用又不挑人

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 色色免费视频| 亚洲国产精品尤物yw在线观看| https:苍井空全集| 中国av一区二区三区| 亚洲国产精品一区二区制服| 久久亚洲国产一区二区| 精品3P| 国产午夜精品免费一区二区三区| 国产欧美精品一区aⅴ影院| 2020最新国产在线不卡a| 精品成a人无码| 日韩人妻无码精品系列专区无遮| 国产一区二区精品久久凹凸| 久色88| 毛葺葺老太做受视频| 欧美一区二区三区久久综合| 日韩精品 在线一区二区| 91视频网页| 午夜区| 日逼123| 国产精品一亚洲av日韩| 国产精品无码不卡在线播放| 久久机热一这里只精品 | 国产精品爱久久久久久久小说| 欧美牲交40_50a欧美牲交aⅴ| 欧美三级电影网站| 人妻视频一区二区三区免费| 97超碰色偷偷| 天天干-天天日| 亚洲欧美日韩久久精品| 欧洲成人免费视频| 无翼乌工口肉肉无遮挡无码18| 亚洲综合av一区二区三区| 97中文字幕在线观视频| 护士av无码在线观看| 又大又粗弄得我出好多水| 国产男女免费完整视频| 五月天丁香网| 免费无码十八禁污污网站| 亚洲 欧美 中文 日韩aⅴ| 麻豆精品一区综合av在线|