<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      CASCADE:讓Agent在部署任務流中進行在線經驗學習

      0
      分享至



      本文作者來自倫敦大學學院、吉林大學和倫敦國王學院。本文第一作者為吉林大學博士生郭思源,倫敦大學學院汪軍教授為論文最后作者。指導教師還包括倫敦國王學院杜雅麗副教授、吉林大學陳賀昌研究員與常毅教授。

      當 LLM Agent 進入真實應用后,它面對的不再是一次性的靜態測試集,而是持續到來的任務流。

      每一次工具調用、代碼執行、網頁搜索或任務完成,都會產生反饋:成功還是失?。孔C據是否充分?工具是否選對?這些部署階段自然產生的信號,能否反過來幫助 Agent 變得更好?

      研究團隊的最新工作提出了部署時學習(Deployment-Time Learning,DTL),并進一步提出 CASCADE。它的核心不是簡單積累經驗,而是讓 Agent 在在線任務流中學會選擇經驗:面對當前任務,應該參考過去哪一次交互,才能做出更好的決策?



      • 論文標題:CASCADE: Case-Based Continual Adaptation for Large Language Models During Deploymen
      • 論文鏈接:https://arxiv.org/abs/2605.06702
      • 代碼倉庫:https://github.com/guosyjlu/CASCADE
      • 基準測試:https://huggingface.co/datasets/guosy/DTLBench

      研究背景

      目前 Agent 經驗學習的相關工作中,常見設定大致有兩類:

      第一類延續傳統機器學習范式:系統先在訓練集上學習,例如微調模型、優化提示詞、構建記憶庫或技能庫,然后在測試集上評估。

      第二類則關注運行時學習,即系統在同一個數據集上先學習多輪,然后觀測其性能提升。

      這些設定都具有研究價值,但真實部署還包含一個重要維度:時間。在真實系統中,任務是按順序到來的。Agent 不能提前看到未來任務,也不能隨意回到過去重做某個請求。每一步既是一次服務,也是一次反饋收集;當前選擇不僅影響當前任務結果,也可能影響后續策略。



      因此,CASCADE 將部署時學習定義為一個在線學習問題。在第 t 步,Agent 觀察到一個查詢,生成答案或行動軌跡,環境返回成功 / 失敗的二值反饋。Agent 的目標不再只是優化單個任務,而是提高整個部署序列上的長期成功率;等價地說,是降低在線學習中的遺憾(Regret)。這一設定更接近工業系統中的持續服務過程,也為評估 Agent 的部署適應能力提供了清晰形式化。

      基于案例的部署時學習:CASCADE

      在部署時學習的設定下,基座模型保持固定,不對其參數進行在線更新。學習發生在 Agent 的外圍組件中,尤其是記憶和檢索機制。CASCADE 以基于案例的推理(Case-Based Reasoning,CBR)為底層框架。當新任務到來時,系統從歷史案例庫中檢索相關成功案例,將其作為上下文提供給 LLM,再根據環境反饋決定是否保留新的案例。這一流程包括四個步驟:

      1. 檢索(Retrieve):從不斷增長的案例庫中檢索候選案例;

      2. 復用(Reuse):將案例作為上下文,輔助 LLM 解決當前查詢;

      3. 修改(Revise):生成最終答案或行動軌跡;

      4. 保存(Retain):如果環境反饋為成功,則將當前交互保存為新的案例。

      在這個 4R 循環中,CASCADE 的關鍵在于:它將 “檢索哪個案例” 建模為上下文賭博機(Contextual Bandit)問題,從而實現檢索過程中的探索 - 利用權衡。在每個時間步,當前查詢是上下文,候選案例是可選擇的動作。Agent 選擇某個案例后,LLM 基于該案例生成結果,環境返回成功或失敗反饋。檢索器隨后利用該反饋更新策略,在后續任務中更好地權衡利用與探索。



      換言之,CASCADE 學習的是一個在線檢索策略:它利用部署過程中觀察到的獎勵信號,判斷哪些案例在給定的任務中更有用。針對這一場景,本文提出了 Neural-LinLogUCB 算法。它使用 Transformer 建模查詢與案例之間的交互表示,并通過線性頭進行不確定性估計,從而適配二值反饋下的上下文賭博機學習。

      從理論上看,CASCADE 將整體遺憾分解為兩部分:

      1. 覆蓋差距:案例庫是否已經包含足夠相關的歷史經驗;

      2. 檢索遺憾:在已有候選案例中,檢索策略是否選中了最有用的案例。

      隨著部署過程持續進行,成功案例逐漸被保存到案例庫中,由覆蓋不足帶來的損失會降低;同時,檢索器通過二值反饋更新,逐步減少選擇錯誤案例帶來的檢索遺憾。在合理假設下,CASCADE 可以得到無遺憾學習保證。



      因此,CASCADE 不只是一個記憶模塊,而是一個面向部署任務流的原則化在線經驗學習框架。

      部署時學習基準測試:DTLBench

      為了系統評估部署時學習能力,論文構建了 DTLBench。該基準包含 16 個任務,覆蓋醫療、法律、金融、智能運維、編程、具身決策、信息檢索等領域,并包含單輪任務和多輪任務。



      單輪任務包括醫療診斷、藥物推薦、科室轉診、急診分診、法律罪名預測、刑罰預測、金融意圖路由、金融情感分析、根因分析、日志故障診斷、Text-to-SQL。

      多輪任務包括經典的 ALFWorld、ScienceWorld,以及兩個更接近真實應用的場景:基于網頁的深度搜索和電子健康記錄上的復雜表格推理。

      在 DTLBench 中,每個任務都被組織為在線查詢序列。Agent 必須按順序處理樣本,只能利用已經發生的歷史交互和反饋。這一區別使得部署步上的成功率成為核心評估指標。

      主要實驗結果

      在 12 個單輪任務上,使用 Qwen3-32B 作為底座模型時,零樣本提示的平均成功率為 48.33%,非參數基線 NP-CBR 達到 63.76%,CASCADE 進一步提升到 66.68%。這一結果表明,案例復用本身已經能夠帶來明顯收益;在此基礎上,利用在線反饋學習檢索策略,可以進一步提升部署序列上的長期表現。



      與基于參數更新的基線 REINFORCE+LoRA 相比,CASCADE 在 12 個單輪任務中的 9 個任務上取得更好結果,并在其余任務上表現接近。同時,CASCADE 不需要更新底座 LLM 參數,學習過程顯存低于 4GB,適合在更輕量的部署條件下運行。



      論文還驗證了 CASCADE 對不同底座模型規模的適用性。在 Qwen3-4B、8B、14B、32B 上,CASCADE 在大多數設置中均能帶來穩定提升。對于黑盒模型 gemini-2.0-flash,CASCADE 同樣適用,在可評估的 9 個任務上將平均成功率提升到 72.58%,高于零樣本提示的 56.58% 和 NP-CBR 的 70.68%。

      這些結果說明,部署時學習并不必須依賴對 LLM 參數的訪問。對于基于 API 服務的黑盒模型,或者不適合頻繁微調的工業系統,CASCADE 提供了一種通過 Agent 外圍組件進行持續適應的途徑。



      在 ALFWorld 上,CASCADE 將成功率從 NP-CBR 的 62.01% 提升到 67.43%;在 ScienceWorld 上,從 59.36% 提升到 66.84%。將 CASCADE 插入 ReAct 框架后,也能進一步提升 Agent 在多輪環境中的任務完成率。



      在基于網頁的深度搜索中,Agent 需要多輪調用本地 RAG 工具或實時網頁搜索工具完成多跳問答。引入部署時學習后,CASCADE 在本地 RAG 和實時網頁搜索設置下均帶來明顯提升。



      在電子健康記錄表格推理任務中,Agent 需要通過 API 查詢數據庫并生成代碼。零樣本提示成功率為 20.75%,NP-CBR 為 44.02%,CASCADE 進一步達到 55.76%,同時減少了平均調試輪數。

      小結

      CASCADE 試圖回答一個在 LLM Agent 部署中越來越重要的問題:當任務持續到來、反饋不斷產生,而底座模型參數保持固定時,Agent 如何在真實交互過程中進行學習?

      本文的核心貢獻可以概括為三點:

      1. 提出部署時學習,將 LLM Agent 的部署階段形式化為無參數更新的在線經驗學習;

      2. 提出 CASCADE,通過基于案例的推理與上下文賭博機學習實現原則化的部署時學習框架;

      3. 構建 DTLBench,在 16 個跨領域任務上評估 Agent 在在線任務序列中的長期表現。

      從這個角度看,CASCADE 的重點不在于重新證明 “經驗有用”,而在于進一步提出:部署過程本身可以被建模、評測和優化。隨著 Agent 系統進入更開放、更長程、更依賴工具的應用場景,如何在真實任務流中利用反饋進行穩定學習,可能會成為大模型部署后的一個重要研究方向。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      爆冷!1-2!補時絕殺,大巴黎轟然倒下,慘遭逆轉,恩里克搞砸了

      爆冷!1-2!補時絕殺,大巴黎轟然倒下,慘遭逆轉,恩里克搞砸了

      足球狗說
      2026-05-18 04:53:55
      特朗普說漏了嘴:黃仁勛馬斯克來中國,自己排隊來的,沒邀請他們

      特朗普說漏了嘴:黃仁勛馬斯克來中國,自己排隊來的,沒邀請他們

      風起見你
      2026-05-18 13:41:11
      徐冬冬與老公尹子維在路邊吵架崩潰痛哭:去廣州塔忘帶身份證,我就是想上小蠻腰,我恨我自己;尹子維在旁緊張到磕巴,用英文安慰

      徐冬冬與老公尹子維在路邊吵架崩潰痛哭:去廣州塔忘帶身份證,我就是想上小蠻腰,我恨我自己;尹子維在旁緊張到磕巴,用英文安慰

      臺州交通廣播
      2026-05-18 16:44:08
      250斤光頭長相如催收!這位華裔憑啥坐穩白宮核心?

      250斤光頭長相如催收!這位華裔憑啥坐穩白宮核心?

      52赫茲實驗室
      2026-05-17 11:26:16
      張藝謀沒想到,集齊演藝圈一眾戲骨,卻輸給了12歲素人小演員?

      張藝謀沒想到,集齊演藝圈一眾戲骨,卻輸給了12歲素人小演員?

      林輕吟
      2026-05-18 16:54:45
      湖北宜昌東干渠發生決堤,有村民反映洪水倒灌入民房,應急管理局工作人員回應稱系人為扒口泄洪,都在可控范圍內,沿線居民已全部轉移

      湖北宜昌東干渠發生決堤,有村民反映洪水倒灌入民房,應急管理局工作人員回應稱系人為扒口泄洪,都在可控范圍內,沿線居民已全部轉移

      瀟湘晨報
      2026-05-18 17:21:12
      拒入中國車隊錯失機遇,張雪機車逆襲締造賽場傳奇

      拒入中國車隊錯失機遇,張雪機車逆襲締造賽場傳奇

      SmartHey
      2026-05-18 14:50:45
      航拍“環江皮卡墜河4死6失聯”事發地:河水濁黃流速較快,多艘沖鋒舟在搜救,附近只有一條漫水橋能過河

      航拍“環江皮卡墜河4死6失聯”事發地:河水濁黃流速較快,多艘沖鋒舟在搜救,附近只有一條漫水橋能過河

      極目新聞
      2026-05-18 15:31:43
      米萊砍掉阿根廷教育部,把錢改發給家長選學校

      米萊砍掉阿根廷教育部,把錢改發給家長選學校

      桂系007
      2026-05-17 18:18:07
      公園監控驚現“活春宮”事情鬧大,上千網友連夜上山打卡,擎天崗爆紅成為網紅新地標,還有人現場穿恐龍服還原情侶姿勢,畫面荒謬!

      公園監控驚現“活春宮”事情鬧大,上千網友連夜上山打卡,擎天崗爆紅成為網紅新地標,還有人現場穿恐龍服還原情侶姿勢,畫面荒謬!

      澳門月刊
      2026-05-18 10:29:06
      G7騎士125-94淘汰活塞 球員評價:4人優秀,4人及格

      G7騎士125-94淘汰活塞 球員評價:4人優秀,4人及格

      籃球資訊達人
      2026-05-18 10:54:03
      徐帆回應離婚幾個月后,68歲馮小剛再惹爭議,養女徐朵成導火索!

      徐帆回應離婚幾個月后,68歲馮小剛再惹爭議,養女徐朵成導火索!

      鄉野小珥
      2026-05-18 08:58:28
      外交部:向8位“杰出外交使者獎章”獲得者表示熱烈祝賀

      外交部:向8位“杰出外交使者獎章”獲得者表示熱烈祝賀

      環球網資訊
      2026-05-18 16:08:07
      48小時已過!美代表揚言:如他查到中方有問題,特朗普會出手

      48小時已過!美代表揚言:如他查到中方有問題,特朗普會出手

      地球記
      2026-05-18 18:31:53
      馬英九再發通告大結局將至,連戰出手不尋常,金溥聰或成贏家

      馬英九再發通告大結局將至,連戰出手不尋常,金溥聰或成贏家

      蘭妮搞笑分享
      2026-05-18 16:59:16
      陪睡陪玩只是表象,王晶怒揭霍家秘辛,震驚娛樂圈

      陪睡陪玩只是表象,王晶怒揭霍家秘辛,震驚娛樂圈

      冷紫葉
      2025-11-07 14:57:29
      34歲法國大叔騎張雪機車賽季狂攬5個冠軍,他是世界前幾的車手?

      34歲法國大叔騎張雪機車賽季狂攬5個冠軍,他是世界前幾的車手?

      仰臥撐FTUer
      2026-05-18 11:08:28
      196周戛然而止!WTA最新排名公布:中國金花鄭欽文跌出前50

      196周戛然而止!WTA最新排名公布:中國金花鄭欽文跌出前50

      全景體育V
      2026-05-18 07:50:46
      4-2中國!5-1日本!朝鮮U17女足遭質疑:阿姨們太猛 肯定改年齡了

      4-2中國!5-1日本!朝鮮U17女足遭質疑:阿姨們太猛 肯定改年齡了

      風過鄉
      2026-05-18 07:28:30
      網紅景區的十大“暴力丑學”,已經把我玩吐了

      網紅景區的十大“暴力丑學”,已經把我玩吐了

      新周刊
      2026-05-16 16:00:28
      2026-05-18 19:31:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13027文章數 142650關注度
      往期回顧 全部

      科技要聞

      同一公司,有人獎金是6年工資,我卻只有半年

      頭條要聞

      失業男子在車里住7天無奈向交警求助 如今找到新工作

      頭條要聞

      失業男子在車里住7天無奈向交警求助 如今找到新工作

      體育要聞

      41歲,他還想第5次踢世界杯

      娛樂要聞

      票房會破14億!口碑第一電影出現了

      財經要聞

      前4月工業生產較快增長 失業率5.3%

      汽車要聞

      二排座椅能躺能轉/三排座椅能收納 零跑D99座艙玩法多樣

      態度原創

      教育
      本地
      健康
      旅游
      手機

      教育要聞

      6所黑馬校崛起!最新奧賽3人進國集,27人獲獎!

      本地新聞

      用蘇繡的方式,打開江西婺源

      專家揭秘干細胞回輸的安全風險

      旅游要聞

      廣元:空氣清新環境宜人,目之所及全是美景,太漂亮了!

      手機要聞

      安卓17iOS26:哪有什么液態玻璃,安卓頂多算高級毛玻璃

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 999成人精品视频在线| 国产精品先锋资源站先锋影院| 午夜自产精品一区二区三区| 国产一区二区三中文字幕| 熟女老骚91PORN九色| 亚洲成人av在线高清| 7878成人国产在线观看| 香蕉eeww99国产在线观看| 国产在线精品无码二区| 亚洲国产成人无码av在线影院| 国产成人精品一区二区秒拍| 国产午夜视频| 日韩欧美国产亚洲中文| 欧美a视频在线观看| 国产无遮挡18禁网站免费| 亚洲人亚洲精品成人网站入口| 免费午夜福利不卡片在线播放| 疯狂做受XXXX高潮国产| 亚洲欧美日韩电影| 九九久久精品国产| A男人的天堂久久A毛片| 狠狠亚洲婷婷综合色香五月排名| 麻豆一区二区三区精品视频| 日屄屄| 一区二区三区精品视频| 国产精品第三页在线看| 国产乱子伦精品免费视频| 成人爽a毛片在线视频| 午夜视频免费试看| 在线播放蜜桃麻豆| 国产国拍亚洲精品永久69| 久久免费观看视频| 裸体女人高潮毛片| 亚洲男人天堂网| 噜噜噜综合亚洲| 成人在线网| 久久综合九色综合97欧美| 成人性做爰aaa片免费| 91免费网站在线观看| 看国产黄大片在线观看| 亚洲国产精品性色av|