<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>

<p id="tp1vn"></p>

<sub id="tp1vn"><p id="tp1vn"></p></sub>

<u id="tp1vn"><rp id="tp1vn"></rp></u>

<meter id="tp1vn"></meter>

<wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>

日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao

<thead id="4sxy0"><option id="4sxy0"></option></thead>

<samp id="4sxy0"><b id="4sxy0"></b></samp>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

不更新參數就能強化學習！翁家翌新范式：決策只需AI寫個.py文件

2026-05-09 16:05:57　來源: 量子位

北京舉報

0

分享至

聞樂發自凹非寺
量子位 | 公眾號 QbitAI

沒有訓練梯度的AI，打破了Atari游戲滿分紀錄。

OpenAI核心研究員翁家翌提出了一個強化學習新范式——

啟發式學習（Heuristic Learning, HL）

全程無神經網絡訓練、無梯度更新，全程靠GPT-5.4驅動的Codex自主迭代，硬是在經典游戲Breakout上打到了864分理論滿分。

與傳統深度強化學習優化神經網絡參數不同，HL不依賴可微權重存儲策略，而是將決策邏輯遷移到離散程序空間，以代碼編輯替代梯度下降，通過顯式的符號規則實現狀態-動作映射。

在游戲、機器人仿真多項任務里，該方法性能甚至超過老牌強化學習算法PPO。

以程序代碼為載體

傳統深度強化學習（DRL）長期默認智能體的決策核心必須依托神經網絡實現。

比如在游戲里，當觀測到游戲小球位于左側時，神經網絡通過復雜映射直接輸出「向左移動」的動作；

但整個決策過程是隱式黑箱的，沒人能清晰拆解內部邏輯，只能依賴梯度下降算法盲目迭代擬合。

也正因這種底層架構，深度強化學習始終難以逾越三大核心瓶頸。

一是災難性遺忘。神經網絡以參數存儲習得技能，新任務的梯度迭代會直接覆蓋舊有權重，無法實現多任務持續學習。

二是決策黑箱、不可解釋。智能體每一次動作選擇都隱藏在海量網絡權重與矩陣運算中，無法追溯決策依據，也不能人工干預、拆解邏輯。

三是樣本效率低下。依賴海量環境交互數據完成訓練迭代，收斂周期長、算力消耗巨大，整體研發與落地成本高。

HL的思路很直接，既然參數更新是問題的根源，那干脆不要參數。

它把智能體的決策策略從神經網絡的權重轉化為可讀的程序代碼，把學習從梯度優化變成代碼編輯。

在HL的框架里，AI維護的不再是單一策略文件，而是一套完整的智能化軟件系統：

顯式的狀態檢測器（“球在左上方，速度向右”）、顯式的規則邏輯（“如果球將落在左側，則向左移動”）、還有測試用例、回歸檢查、失敗記錄、版本歷史。

每次迭代，Codex會審視系統表現，閱讀失敗錄像，分析日志，然后做出結構性調整。

這種范式的關鍵的優勢是：知識是顯式的。

舊能力不會被覆蓋，而是封裝成模塊和測試，隨時可調用、可驗證、可傳承。

就像翁家翌說的：

HL把持續學習從“如何更新參數”變成了”如何維護一個持續吸收反饋的軟件系統”。

當然，HL并不是完全排斥梯度技術，它內部某些組件（如模型預測控制MPC）仍然會用梯度做局部搜索。

但關鍵在于這類梯度運算不用于神經網絡訓練與參數更新，僅服務于實時動作決策。

而且這種架構設計讓HL原生自帶可解釋、抗遺忘、高效率的特性。

Atari滿分，機器人控制SOTA

不只是拿到Breakout的864分，翁家翌完成了完整的Atari 57大規模測試（Atari 57是行業公認的強化學習基準測試集，包含57款不同類型的經典游戲，覆蓋離散動作空間的各類決策場景）。

每款游戲設置兩種觀測模式，各自重復三輪實驗，最終生成342條獨立的智能編碼迭代軌跡。

結果顯示，在統一環境交互步數的前提下，啟發式學習HL的整體中位表現，已經和PPO等主流深度強化學習算法持平。

在Breakout、Asterix、Jamesbond等多款經典游戲中，成績甚至超越人類玩家基準水平。

相比游戲離散決策，MuJoCo機器人連續控制任務難度更高。

以四足機器人Ant為例，需要協同調控8個關節，在高維連續動作空間中維持動態平衡。

啟發式學習HL從基礎節律步態規則起步，逐步迭代加入姿態反饋、觸地信號感知、短程模型預測等邏輯，最終綜合評分突破6000 分，性能完全對標專業深度強化學習模型。

在HalfCheetah獵豹仿真任務中，HL更是跑出了11836的平均高分，展現出在復雜連續控制場景的極強適配能力。

不過翁家翌也沒有回避HL的邊界。

他直言：

在我目前認知范圍內，我想不出有個agent能搓出一個純Python code、不用神經網絡去解決 ImageNet。

從原始像素中完成目標識別、特征抽象，依舊是深度神經網絡不可替代的強項。

而啟發式學習HL的核心價值，集中體現在策略持續迭代層面，當環境動態變化、需要長期自適應調整行為邏輯時，顯性化的代碼規則系統更適配持續學習需求。

所以，當下關鍵的命題在于如何把神經網絡與HL有機融合，一并攻克在線學習與持續學習兩大難題。

翁家翌指出最具落地前景的思路是，依托HL實時處理在線環境數據流，快速沉淀可復用的在線行為經驗；

再將這些顯性經驗整理、內化，轉化為可訓練、可回歸、可篩選的高質量數據集，反過來對神經網絡做周期性迭代更新。

[1]https://x.com/Trinkle23897/status/2052596837547495549
[2]https://trinkle23897.github.io/learning-beyond-gradients

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

2026年，大模型訓練的下半場屬于「強化學習云」

機器之心Pro 2026-01-12 14:03:47
0 跟貼 0
強化學習的進化：從PPO到MaxRL，LLM推理訓練的算法演進史

機器之心Pro 2026-05-05 14:16:31
0 跟貼 0

具身智能來時路：谷歌RT1、2，SayCan作者Ted Xiao復盤機器人學習

機器之心Pro 2026-05-11 09:52:22
0 跟貼 0

神經計算機橫空出世：AI不再調用軟件，而是直接長成一臺計算機

DeepTech深科技 2026-05-03 18:24:37
30 跟貼 30
讓離線強化學習從「局部描摹」變「全局布局」丨ICLR'26

量子位 2026-04-06 13:33:32
0 跟貼 0

ChatGPT、豆包集體翻車：AI沒有價值觀，只有「求生欲」

雷科技 2026-05-11 21:18:29
15 跟貼 15

做AI漫劇的、搞Agent的、投硅谷的，5.20這些賽道頂流碰頭了

量子位 2026-05-11 18:32:24
0 跟貼 0
13年不寫代碼，5天花200美元重建400萬美元產品——YC掌門人是怎么做到的？

華爾街見聞官方 2026-05-11 10:52:07
7 跟貼 7

00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
第一代機器人公司等到了IPO時刻

虎嗅APP 2026-05-12 04:19:40
0 跟貼 0
圖靈獎得主Sutton：用1967年的公式，解決流式強化學習一大缺陷

機器之心Pro 2026-05-11 09:55:21
3 跟貼 3
孫子兵道：一將難求與將才矩陣

陳相靈TALK 2026-05-08 19:44:33
1 跟貼 1
從參數到外觀：汽車行業的最后一場競爭

基地邊緣BaseEdge 2026-05-08 17:48:10
1 跟貼 1
一汽修店主只修特斯拉：其他新能源車三電不修怕被告

第一財經資訊 2026-05-11 16:52:11
36479 跟貼 36479
敘利亞重新接入全球支付系統刷卡機“吐出”小票現場爆發掌聲

海外網 2026-05-11 13:40:32
729 跟貼 729
生存游戲大挑戰，沒有算法全憑運氣

腿毛影視劇 2026-05-09 16:11:36
10 跟貼 10
車內自衛術，男子教女子遇襲后的應對策略，你往后躺啊

班子愛生活 2026-05-11 11:13:52
3 跟貼 3
超長標題：體驗廣汽豐田2026款鉑智3X全場景智能輔助駕駛功能（Momenta R6強化學習大模型）

菲常視界 2026-05-09 10:37:28
0 跟貼 0
2500億美元的xAI死了，但SpaceXAI的算力游戲才剛開始

鈦媒體APP 2026-05-11 11:15:26
0 跟貼 0
六維經營核心要務 ——數智時代下，以“人才×智能”構筑企業發展新根基

經濟觀察報 2026-05-11 10:00:04
0 跟貼 0
SM公司策略揭秘：后輩必修前輩作品，肥水不流外人田

今夜繁星墜落 2026-05-11 03:33:12
1 跟貼 1
【AI大模型安全與評測】從DeepSeek-V4拆解真實評估邏輯，90%的人都搞錯了！企業級大模型評

盧菁老師 2026-05-09 09:07:47
0 跟貼 0
嘴炮王者譚sir竟被邏輯女帝反殺成渣：愿大姐被歲月溫柔以待

解壓小劇場 2026-05-09 08:17:50
174 跟貼 174
武裝德日、全民征兵，美國某地正在做一項舉動，其他國家必須小心

畫卷 2026-05-12 00:53:15
0 跟貼 0
被殖民者貶為“原始”的聚落，包含著極為精妙的“算法”

新浪財經 2026-05-11 21:08:51
0 跟貼 0
戰斗機如何用航炮擊沉潛艇？演示二戰飛機反潛航炮戰術模型

老周說趣 2026-05-10 09:44:15
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
奢侈品牌MIU MIU多款產品被指也有“限購區”，杭州多個街道地址無法下單

澎湃新聞 2026-05-11 10:22:28
5259 跟貼 5259
科學家用活體神經元完成計算任務，腦機融合邁出驚人一步

DeepTech深科技 2026-04-05 19:24:24
52 跟貼 52
停火后到底發生了什么？梳理伊朗破局美軍封鎖的戰術邏輯

北山戰史 2026-05-09 20:21:15
1 跟貼 1
算法“破籠”：打工人終于能從“永動機”上下來了

迷世書童 2026-05-11 09:27:50
0 跟貼 0
為避稅老人把房過戶給孫子，不料導致親情決裂

看看新聞Knews 2026-05-11 17:44:08
456 跟貼 456
王勵勤總結世乒賽：男隊陣容不是最強但最拼，女隊經受對手超水平發揮考驗，點贊孫穎莎王楚欽力挽狂瀾

紅網 2026-05-11 11:59:00
706 跟貼 706
大學生驅車1300公里，送校友回家奔喪：自費5200多元，事后收到很多轉賬均婉拒

瀟湘晨報 2026-05-11 16:50:57
244 跟貼 244
尋天起航：雷軍的“去小米化”豪賭與增程SUV的生存邏輯

商業不許冷 2026-05-11 22:32:51
4 跟貼 4
茶顏悅色，裝不下去了

中國新聞周刊 2026-05-07 22:15:57
303 跟貼 303
創意DIY 利用膠帶卷芯制作模型玩具

趣味創意DIY 2026-05-10 08:07:29
3 跟貼 3
吳宜澤：能進攻時我從來不會防守為此付出過很多代價

環球網資訊 2026-05-11 13:26:15
252 跟貼 252
比利時將向烏克蘭提供全部F-16戰機

參考消息 2026-05-11 14:37:08
1297 跟貼 1297
下個月的蘋果 WWDC，假如 iCloud 變成 iClaw......?

愛范兒 2026-05-11 18:15:10
0 跟貼 0

終于回過味來了？美媒：中國正全國動員，殲36殲50生產超美國兩倍

終于回過味來了？美媒：中國正全國動員，殲36殲50生產超美國兩倍

說歷史的老牢

2026-05-10 18:47:47

特朗普調整訪華計劃，中方官宣其訪華時間將增加一天

特朗普調整訪華計劃，中方官宣其訪華時間將增加一天

阿鳧愛吐槽

2026-05-11 18:49:38

官方通報“廣西梧州一公交車墜翻”

官方通報“廣西梧州一公交車墜翻”

界面新聞

2026-05-11 17:48:07

猝不及防！三胎僅6個月，方媛又官宣喜訊，郭富城也倍感意外

猝不及防！三胎僅6個月，方媛又官宣喜訊，郭富城也倍感意外

草莓解說體育

2026-05-10 14:55:22

比披絲巾更可怕的是“瑜伽褲外穿”，廉價又卡襠，三角區更尷尬

比披絲巾更可怕的是“瑜伽褲外穿”，廉價又卡襠，三角區更尷尬

生命之泉的奧秘

2026-03-20 03:56:49

美官員稱美軍對伊朗格什姆港和阿巴斯港實施打擊

美官員稱美軍對伊朗格什姆港和阿巴斯港實施打擊

國際在線

2026-05-08 06:03:04

伊朗深夜清理門戶，兩名內鬼被絞，身份曝光后中國也驚出一身冷汗

伊朗深夜清理門戶，兩名內鬼被絞，身份曝光后中國也驚出一身冷汗

達文西看世界

2026-05-09 14:03:46

豐滿的女孩你喜歡嗎：這個問題，該問問自己

豐滿的女孩你喜歡嗎：這個問題，該問問自己

疾跑的小蝸牛

2026-05-11 21:58:36

上海人為什么不買增程和插混？

童濟仁的汽車評論

2026-05-11 18:23:05

不老女神翻車進去了？王安宇掉資源？沙溢暴瘦是生病了？張真源投靠水果？姨太問答

不老女神翻車進去了？王安宇掉資源？沙溢暴瘦是生病了？張真源投靠水果？姨太問答

毒舌扒姨太

2026-05-11 23:03:11

一個手握千億男裝帝國的富二代，為什么突然瘋了呢？

一個手握千億男裝帝國的富二代，為什么突然瘋了呢？

流蘇晚晴

2026-05-09 19:01:09

炸了！切爾西 4000 萬挖角阿森納天才，槍手罕見讓步引眾怒

炸了！切爾西 4000 萬挖角阿森納天才，槍手罕見讓步引眾怒

一隅非生

2026-05-12 04:08:21

都打張本美和，孫穎莎能贏，為何王曼昱輸球？鄧亞萍賽后總結來了

都打張本美和，孫穎莎能贏，為何王曼昱輸球？鄧亞萍賽后總結來了

體育大學僧

2026-05-11 08:42:42

新月外租球員因進球后展示新月隊徽護腿板，被現效力球隊停賽

新月外租球員因進球后展示新月隊徽護腿板，被現效力球隊停賽

懂球帝

2026-05-12 01:23:03

伊朗對英法發出警告

參考消息

2026-05-11 11:16:10

晚節不保？72歲濮存昕硬捧外孫女拍戲，全網吐槽：尖嘴猴腮求放過

晚節不保？72歲濮存昕硬捧外孫女拍戲，全網吐槽：尖嘴猴腮求放過

觀察鑒娛

2026-05-11 13:57:43

在名為“統治東方”的地方，讓東方人去慶賀？海參崴閱兵未免過了

在名為“統治東方”的地方，讓東方人去慶賀？海參崴閱兵未免過了

歷史擺渡

2026-05-10 18:55:03

記者：穆帥希望友好分別，本菲卡有預想他世界杯后執教葡萄牙

記者：穆帥希望友好分別，本菲卡有預想他世界杯后執教葡萄牙

懂球帝

2026-05-11 22:27:23

中央巡視組原副部級巡視專員許傳智，被提起公訴

中央巡視組原副部級巡視專員許傳智，被提起公訴

每日經濟新聞

2026-05-11 20:35:36

朱可夫晚年回憶：當年德軍能從莫斯科撤走，皆因斯大林的一道指令

朱可夫晚年回憶：當年德軍能從莫斯科撤走，皆因斯大林的一道指令

飯小妹說歷史

2026-05-11 10:25:07

追蹤人工智能動態

12605文章數 176461關注度

往期回顧全部

科技要聞

黃仁勛：你們趕上了一代人一次的大機會

頭條要聞

間諜引誘國企人員進色情場所拍艷照要挾對方加入

頭條要聞

間諜引誘國企人員進色情場所拍艷照要挾對方加入

體育要聞

梁靖崑：可能是最后一屆了，想讓大家記住這個我

娛樂要聞

“孕婦墜崖案”王暖暖稱被霸凌協商解約

財經要聞

宗馥莉罷免銷售負責人部分業務將外包

汽車要聞

吉利銀河“TT”申報圖曝光電動尾翼+激光雷達

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

旅游

教育

時尚

軍事航空

家居要聞

多元生活此處無聲

菁英人居全能豪宅
流動的尺度打破家的形式主義
破繭成蝶土味精裝房爆改

旅游要聞

打卡同色系風景帶火城市微旅行

教育要聞

有公費海外交換機會的院校（媽媽!免費曠野!

今年夏天最流行的5雙涼鞋，配裙子絕美！

軍事要聞

特朗普：伊朗的回應“完全不可接受”

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：精品久久国产| 国产精品18禁久久久久久白浆 | 91久久精品国产性色也| 成全影视大全在线观看| 国产精品有码无码AV在线播放| 国产色诱视频在线播放网站| 日本一区二区精品色超碰| 欧美劲爆第一页| 97精品一区二区三区免费| 久久精品人妻无码一区二区三区| 亚洲午夜无码久久久久小说 | 亚洲AV日韩精品久久久久久久| 中文字幕日产av| 不卡无码h在线观看| √天堂资源在线中文8在线最新版| 91色老久久精品偷偷性色| 国产一級A片免费看| 久久香综合精品久久伊人| 成人看片黄A免费看| 国产精品手机免费| 欧美s码亚洲码精品m码| 亚洲自拍制服| 五月天婷婷在在线视频| 一本大道香蕉大vr在线吗视频| 色噜噜狠狠色综合网图区| 久久久久人妻啪啪一区二区| 国产香蕉av| 日本久久99成人网站| 久久久久久国产精品免费免费男同| 成人午夜国产内射主播| 国产精品熟女一区二区不卡| 亚洲美女av一区| 欧洲天堂网| 日韩人妻熟女中文字幕aⅴ春菜 | 乱伦日屄| 在线看片免费人成视频久网下载| 女人体免费一区二区| 国产乱子伦视频一区二区三区| 最新精品国产自偷在自线| 中国av一区二区三区| 日本一区二区在线免费观看|

<tt id="xh7rh"></tt>

<dfn id="xh7rh"><code id="xh7rh"><dl id="xh7rh"></dl></code></dfn>

<em id="xh7rh"></em>

<menuitem id="xh7rh"></menuitem><nobr id="xh7rh"></nobr>