<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      不更新參數就能強化學習!翁家翌新范式:決策只需AI寫個.py文件

      0
      分享至

      聞樂 發自 凹非寺
      量子位 | 公眾號 QbitAI

      沒有訓練梯度的AI,打破了Atari游戲滿分紀錄。

      OpenAI核心研究員翁家翌提出了一個強化學習新范式——

      啟發式學習(Heuristic Learning, HL)



      全程無神經網絡訓練、無梯度更新,全程靠GPT-5.4驅動的Codex自主迭代,硬是在經典游戲Breakout上打到了864分理論滿分。



      與傳統深度強化學習優化神經網絡參數不同,HL不依賴可微權重存儲策略,而是將決策邏輯遷移到離散程序空間,以代碼編輯替代梯度下降,通過顯式的符號規則實現狀態-動作映射。

      在游戲、機器人仿真多項任務里,該方法性能甚至超過老牌強化學習算法PPO。

      以程序代碼為載體

      傳統深度強化學習(DRL)長期默認智能體的決策核心必須依托神經網絡實現。

      比如在游戲里,當觀測到游戲小球位于左側時,神經網絡通過復雜映射直接輸出「向左移動」的動作;

      但整個決策過程是隱式黑箱的,沒人能清晰拆解內部邏輯,只能依賴梯度下降算法盲目迭代擬合。

      也正因這種底層架構,深度強化學習始終難以逾越三大核心瓶頸。

      一是災難性遺忘。神經網絡以參數存儲習得技能,新任務的梯度迭代會直接覆蓋舊有權重,無法實現多任務持續學習。

      二是決策黑箱、不可解釋。智能體每一次動作選擇都隱藏在海量網絡權重與矩陣運算中,無法追溯決策依據,也不能人工干預、拆解邏輯。

      三是樣本效率低下。依賴海量環境交互數據完成訓練迭代,收斂周期長、算力消耗巨大,整體研發與落地成本高。

      HL的思路很直接,既然參數更新是問題的根源,那干脆不要參數。

      它把智能體的決策策略從神經網絡的權重轉化為可讀的程序代碼,把學習從梯度優化變成代碼編輯。

      在HL的框架里,AI維護的不再是單一策略文件,而是一套完整的智能化軟件系統:

      顯式的狀態檢測器(“球在左上方,速度向右”)、顯式的規則邏輯(“如果球將落在左側,則向左移動”)、還有測試用例、回歸檢查、失敗記錄、版本歷史。

      每次迭代,Codex會審視系統表現,閱讀失敗錄像,分析日志,然后做出結構性調整。



      這種范式的關鍵的優勢是:知識是顯式的。

      舊能力不會被覆蓋,而是封裝成模塊和測試,隨時可調用、可驗證、可傳承。

      就像翁家翌說的:

      HL把持續學習從“如何更新參數”變成了”如何維護一個持續吸收反饋的軟件系統”。

      當然,HL并不是完全排斥梯度技術,它內部某些組件(如模型預測控制MPC)仍然會用梯度做局部搜索。

      但關鍵在于這類梯度運算不用于神經網絡訓練與參數更新,僅服務于實時動作決策。



      而且這種架構設計讓HL原生自帶可解釋、抗遺忘、高效率的特性。

      Atari滿分,機器人控制SOTA

      不只是拿到Breakout的864分,翁家翌完成了完整的Atari 57大規模測試(Atari 57是行業公認的強化學習基準測試集,包含57款不同類型的經典游戲,覆蓋離散動作空間的各類決策場景)。

      每款游戲設置兩種觀測模式,各自重復三輪實驗,最終生成342條獨立的智能編碼迭代軌跡。

      結果顯示,在統一環境交互步數的前提下,啟發式學習HL的整體中位表現,已經和PPO等主流深度強化學習算法持平。

      在Breakout、Asterix、Jamesbond等多款經典游戲中,成績甚至超越人類玩家基準水平。

      相比游戲離散決策,MuJoCo機器人連續控制任務難度更高。

      以四足機器人Ant為例,需要協同調控8個關節,在高維連續動作空間中維持動態平衡。

      啟發式學習HL從基礎節律步態規則起步,逐步迭代加入姿態反饋、觸地信號感知、短程模型預測等邏輯,最終綜合評分突破6000 分,性能完全對標專業深度強化學習模型。



      在HalfCheetah獵豹仿真任務中,HL更是跑出了11836的平均高分,展現出在復雜連續控制場景的極強適配能力。



      不過翁家翌也沒有回避HL的邊界。

      他直言:

      在我目前認知范圍內,我想不出有個agent能搓出一個純Python code、不用神經網絡去解決 ImageNet。

      從原始像素中完成目標識別、特征抽象,依舊是深度神經網絡不可替代的強項。

      而啟發式學習HL的核心價值,集中體現在策略持續迭代層面,當環境動態變化、需要長期自適應調整行為邏輯時,顯性化的代碼規則系統更適配持續學習需求。

      所以,當下關鍵的命題在于如何把神經網絡與HL有機融合,一并攻克在線學習與持續學習兩大難題。

      翁家翌指出最具落地前景的思路是,依托HL實時處理在線環境數據流,快速沉淀可復用的在線行為經驗;

      再將這些顯性經驗整理、內化,轉化為可訓練、可回歸、可篩選的高質量數據集,反過來對神經網絡做周期性迭代更新。


      [1]https://x.com/Trinkle23897/status/2052596837547495549
      [2]https://trinkle23897.github.io/learning-beyond-gradients

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      終于回過味來了?美媒:中國正全國動員,殲36殲50生產超美國兩倍

      終于回過味來了?美媒:中國正全國動員,殲36殲50生產超美國兩倍

      說歷史的老牢
      2026-05-10 18:47:47
      特朗普調整訪華計劃,中方官宣其訪華時間將增加一天

      特朗普調整訪華計劃,中方官宣其訪華時間將增加一天

      阿鳧愛吐槽
      2026-05-11 18:49:38
      官方通報“廣西梧州一公交車墜翻”

      官方通報“廣西梧州一公交車墜翻”

      界面新聞
      2026-05-11 17:48:07
      猝不及防!三胎僅6個月,方媛又官宣喜訊,郭富城也倍感意外

      猝不及防!三胎僅6個月,方媛又官宣喜訊,郭富城也倍感意外

      草莓解說體育
      2026-05-10 14:55:22
      比披絲巾更可怕的是“瑜伽褲外穿”,廉價又卡襠,三角區更尷尬

      比披絲巾更可怕的是“瑜伽褲外穿”,廉價又卡襠,三角區更尷尬

      生命之泉的奧秘
      2026-03-20 03:56:49
      美官員稱美軍對伊朗格什姆港和阿巴斯港實施打擊

      美官員稱美軍對伊朗格什姆港和阿巴斯港實施打擊

      國際在線
      2026-05-08 06:03:04
      伊朗深夜清理門戶,兩名內鬼被絞,身份曝光后中國也驚出一身冷汗

      伊朗深夜清理門戶,兩名內鬼被絞,身份曝光后中國也驚出一身冷汗

      達文西看世界
      2026-05-09 14:03:46
      豐滿的女孩你喜歡嗎:這個問題,該問問自己

      豐滿的女孩你喜歡嗎:這個問題,該問問自己

      疾跑的小蝸牛
      2026-05-11 21:58:36
      上海人為什么不買增程和插混?

      上海人為什么不買增程和插混?

      童濟仁的汽車評論
      2026-05-11 18:23:05
      不老女神翻車進去了?王安宇掉資源?沙溢暴瘦是生病了?張真源投靠水果?姨太問答

      不老女神翻車進去了?王安宇掉資源?沙溢暴瘦是生病了?張真源投靠水果?姨太問答

      毒舌扒姨太
      2026-05-11 23:03:11
      一個手握千億男裝帝國的富二代,為什么突然瘋了呢?

      一個手握千億男裝帝國的富二代,為什么突然瘋了呢?

      流蘇晚晴
      2026-05-09 19:01:09
      炸了!切爾西 4000 萬挖角阿森納天才,槍手罕見讓步引眾怒

      炸了!切爾西 4000 萬挖角阿森納天才,槍手罕見讓步引眾怒

      一隅非生
      2026-05-12 04:08:21
      都打張本美和,孫穎莎能贏,為何王曼昱輸球?鄧亞萍賽后總結來了

      都打張本美和,孫穎莎能贏,為何王曼昱輸球?鄧亞萍賽后總結來了

      體育大學僧
      2026-05-11 08:42:42
      新月外租球員因進球后展示新月隊徽護腿板,被現效力球隊停賽

      新月外租球員因進球后展示新月隊徽護腿板,被現效力球隊停賽

      懂球帝
      2026-05-12 01:23:03
      伊朗對英法發出警告

      伊朗對英法發出警告

      參考消息
      2026-05-11 11:16:10
      晚節不保?72歲濮存昕硬捧外孫女拍戲,全網吐槽:尖嘴猴腮求放過

      晚節不保?72歲濮存昕硬捧外孫女拍戲,全網吐槽:尖嘴猴腮求放過

      觀察鑒娛
      2026-05-11 13:57:43
      在名為“統治東方”的地方,讓東方人去慶賀?海參崴閱兵未免過了

      在名為“統治東方”的地方,讓東方人去慶賀?海參崴閱兵未免過了

      歷史擺渡
      2026-05-10 18:55:03
      記者:穆帥希望友好分別,本菲卡有預想他世界杯后執教葡萄牙

      記者:穆帥希望友好分別,本菲卡有預想他世界杯后執教葡萄牙

      懂球帝
      2026-05-11 22:27:23
      中央巡視組原副部級巡視專員許傳智,被提起公訴

      中央巡視組原副部級巡視專員許傳智,被提起公訴

      每日經濟新聞
      2026-05-11 20:35:36
      朱可夫晚年回憶:當年德軍能從莫斯科撤走,皆因斯大林的一道指令

      朱可夫晚年回憶:當年德軍能從莫斯科撤走,皆因斯大林的一道指令

      飯小妹說歷史
      2026-05-11 10:25:07
      2026-05-12 06:03:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12605文章數 176461關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      間諜引誘國企人員進色情場所 拍艷照要挾對方加入

      頭條要聞

      間諜引誘國企人員進色情場所 拍艷照要挾對方加入

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個我

      娛樂要聞

      “孕婦墜崖案”王暖暖稱被霸凌協商解約

      財經要聞

      宗馥莉罷免銷售負責人 部分業務將外包

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      家居
      旅游
      教育
      時尚
      軍事航空

      家居要聞

      多元生活 此處無聲

      旅游要聞

      打卡同色系風景 帶火城市微旅行

      教育要聞

      有公費海外交換機會的院校(媽媽!免費曠野!

      今年夏天最流行的5雙涼鞋,配裙子絕美!

      軍事要聞

      特朗普:伊朗的回應“完全不可接受”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品久久国产| 国产精品18禁久久久久久白浆 | 91久久精品国产性色也| 成全影视大全在线观看| 国产精品有码无码AV在线播放| 国产色诱视频在线播放网站| 日本一区二区精品色超碰| 欧美劲爆第一页| 97精品一区二区三区免费| 久久精品人妻无码一区二区三区| 亚洲午夜无码久久久久小说 | 亚洲AV日韩精品久久久久久久| 中文字幕日产av| 不卡无码h在线观看| √天堂资源在线中文8在线最新版| 91色老久久精品偷偷性色| 国产一級A片免费看| 久久香综合精品久久伊人| 成人看片黄A免费看| 国产精品手机免费| 欧美s码亚洲码精品m码| 亚洲自拍制服| 五月天婷婷在在线视频| 一本大道香蕉大vr在线吗视频| 色噜噜狠狠色综合网图区| 久久久久人妻啪啪一区二区| 国产香蕉av| 日本久久99成人网站| 久久久久久国产精品免费免费男同| 成人午夜国产内射主播| 国产精品熟女一区二区不卡| 亚洲美女av一区| 欧洲天堂网| 日韩人妻熟女中文字幕aⅴ春菜 | 乱伦日屄| 在线看片免费人成视频久网下载| 女人体免费一区二区| 国产乱子伦视频一区二区三区| 最新精品国产自偷在自线| 中国av一区二区三区| 日本一区二区在线免费观看|