<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Shop-R1: 給AI補上「內心戲」,在RL博弈中復刻人類網購腦

      0
      分享至



      某電商平臺上,一名用戶反復對比三款降噪耳機的評價、續航與材質。這購物決策背后藏著預算、參數對比與審美偏好的博弈。但在 AI 智能體(Agent)的世界里,這種糾結往往不存在。傳統的 AI 購物助手更像是一個任務完成機器:接到指令,搜索,下單。他們或許能跑通流程,卻完全無法理解用戶為何在最后一刻因為一條關于 “夾耳朵” 的差評而放棄支付。簡而言之,傳統的電商 Agent 只是任務導向的(task-oriented),而不是模擬導向的(simulation-oriented)。為此,來自亞馬遜(Amazon)的研究團隊提出了名為 Shop-R1 的訓練框架 。



      • 論文標題:Shop-R1: Rewarding LLMs to Simulate Human Behavior in Online Shopping via Reinforcement Learning
      • 論文地址: https://arxiv.org/abs/2507.17842
      • 項目主頁:https://damon-demon.github.io/shop-r1.html
      • 代碼和數據:公司法務審核中... (Coming Soon!)

      Shop-R1:從 “指令執行” 到 “行為復刻”

      在傳統的電商 AI 研究中,衡量標準往往是單一的成功率。然而,真實世界的網購環境是一個充滿噪聲、促銷陷阱與主觀偏好的動態迷宮。研究團隊觀察到,這種 “黑盒式” 的任務導向模型在面對復雜環境時,往往會產生邏輯斷層:它們可能因為偶然的網頁跳轉完成了任務,卻完全偏離了真實人類的消費習慣。

      Shop-R1 的核心野心,是實現從 “任務完成” 到 “行為模擬” 的范式轉移。對于模擬導向的購物 Agent,它的終極挑戰在于:它需實時解構歷史瀏覽鏈路與當前的交互細節,從而在動態的上千種可能的操作中精準預測用戶在當前頁面維度的下一步操作。為了復刻決策過程,Shop-R1 將復雜的網購過程中的行為歸納為三類動作:

      • 打字輸入(Type)
      • 點擊(Click)
      • 終結(Terminate)



      模型以用戶過往瀏覽頁面及對應操作作為輸入,并以結構化的 JSON 形式輸出對用戶下一步動作(Action)的預測以及其背后的推理邏輯(Rationale)。



      Shop-R1 采用雙階段訓練范式:首先通過監督微調(SFT)實現行為基準的 “冷啟動”;隨后在強化學習(RL)階段,利用多層級獎勵機制(Hierarchical Rewards)驅動深度迭代,旨在提升模型在復雜動態環境下的邏輯推理與泛化表現。



      第一階段:SFT 冷啟動

      這種監督式初始化(supervised initialization)在訓練流程的早期階段發揮了關鍵作用,它幫助模型盡早內化上下文(context)、推理過程(rationale)與動作(action)之間的結構性依賴關系。通過在一開始就讓模型建立這些模式,進而顯著提升了后續強化學習(RL)階段的穩定性和樣本效率。更重要的是,這種方法為什么樣的長文本輸出才算高質量提供了明確的信號,例如正確命名被點擊的按鈕或給出有意義的搜索查詢。而這些能力如果僅依賴強化學習往往難以獲得,尤其是在獎勵信號稀疏且延遲的情況下。

      第二階段:多層級獎勵的強化學習

      為了在人類行為模擬(human behavior simulation)場景中更好地引導策略優化,每一步決策被拆分為兩個子任務:rationale 生成和 action 預測。針對每個子任務,分別設計了專門的獎勵函數,以提升模型的對齊性(alignment)和可解釋性(interpretability)。

      1)二值格式獎勵(Binary Format Reward)

      為了保證能夠方便且正確地從模型輸出中解析出預測的 rationale 和 action,引入了二值格式獎勵,鼓勵模型以結構化 JSON 格式生成響應。該格式遵循一個字典結構,包含兩個鍵:rationale 和 action。

      2)推理獎勵 (Rational Reward)

      對于 rationale 生成,采用 self-certainty score,用于衡量模型對其生成 rationale 的置信程度。具體而言,我們計算模型在詞表上的預測分布與均勻分布之間的 KL 散度,并在整個輸出序列上取平均。

      3)層級式動作獎勵 (Hierarchical Action Reward)

      對于 action 預測,我們用一種層級式獎勵機制(hierarchical reward scheme)替代了原本脆弱的二值獎勵信號。該機制同時對粗粒度的動作類型細粒度的子動作給予獎勵,從而穩定訓練過程,并抑制退化的reward hacking策略。這種層級獎勵機制使得獎勵空間更加稠密(densify the reward landscape):它擴大了能夠獲得正收益的軌跡集合,使智能體能夠擺脫在策略搜索過程中常見的“無獎勵平臺(no-reward plateau)”,同時也使得 reward hacking 的收益變得不再劃算。

      具體而言,一旦高層動作類型預測正確,無論該動作是簡單還是復雜,都可以獲得相同的粗粒度獎勵;而只有較復雜的動作,才可以通過其長文本子組件(sub-actions)進一步獲得額外獎勵。因此,簡單地反復執行 “terminate” 這一簡單動作將不再具有競爭性的回報,而完整執行 (“click”, “type_and_submit”) 等動作序列則成為收益最高的策略。比如,“click” 動作包含一個子動作,用于指定需要點擊的按鈕名稱;只要子組件預測正確,模型即可獲得部分獎勵。類似地,“type_and_submit” 也包含子動作,用于提供需要輸入并提交的文本內容。相比之下,“terminate” 不包含任何子動作,因此僅在動作類型層級進行評分。

      在評估預測準確度時,我們采用任務特定的指標:

      • 對于離散的動作類型,使用exact match(完全匹配)作為判定標準;
      • 對于自由文本形式的子動作,則使用ROUGE-L進行評估。
      • 對于文本型子動作(例如按鈕標簽或搜索查詢),當其與真實答案之間的 ROUGE-L 相似度超過預設閾值(例如 0.75)時,將根據相似度大小給予相應的軟獎勵(soft reward)。

      4)難度感知獎勵縮放因子(Difficulty-Aware Reward Scaling, DARS)

      由于長文本子動作預測難度較高 (現代網頁可能包含數千個候選元素)我們進一步引入了DARS,對正確預測這些組件的獎勵進行放大。該機制可以有效防止一種常見的 reward hacking 行為:智能體不斷選擇簡單的 “terminate” 動作來獲取容易的獎勵。



      實驗結果

      如表格所示,直接使用 zero-shot 提示幾乎無法完成該任務,Qwen-2.5-3B-Instruct 的 exact-action 準確率僅 0.32%,說明長序列網頁行為無法僅靠通用指令能力恢復。僅使用 稀疏二值獎勵的強化學習同樣效果有限,從零訓練僅達到 1.01% exact-match 和 6.17% type accuracy。

      相比之下,一輪 監督微調(SFT)可以顯著提升性能(16.76% exact-match,22.25% type accuracy),表明密集的示例軌跡對于學習 context → rationale → action 的結構非常關鍵。但在 SFT 之后繼續使用二值獎勵 RL 提升有限。而 Shop-R1 通過結合層級獎勵、self-certainty 信號、格式獎勵以及難度感知獎勵縮放,將 exact-action accuracy 提升至 27.72%(相對 僅 SFT 提升 65%),同時顯著提升動作類型指標,表明模型不僅更容易識別正確意圖,也能更準確生成按鈕名稱或搜索查詢等長文本參數。



      未來展望:視覺感官與性格派 AI

      Shop-R1 的出現僅僅揭開了電商 Agent 進化史的一角,未來的突破點將集中在感官增強與個性化模擬上。

      引入視覺語言模型(VLM)[1] 將是下一場進化的重頭戲?,F有的 Agent 高度依賴 HTML 代碼,但人類網購時,往往會被一張富有氛圍感的頭圖擊中,或通過買家秀實拍圖的細節來判斷質感。賦予 AI “看” 的能力,意味著它能捕捉到那些無法被文本描述的隱含情緒。

      更具顛覆性的構想在于“性格化” (Character Injection)[2]。通過調整強化學習的獎勵權重,研究人員可以賦予 AI 不同的消費畫像:

      • “極致性價比黨”:會自動過濾所有冗余配件,在預算邊緣反復橫跳以尋找最優解。
      • “精致參數控”:會花費 80% 的權重分析硬件指標與差評,而非廣告推薦。
      • “顏值正義者”:視覺美感將成為其最高決策優先級。

      這種多樣化的智能體矩陣,將使 AI 能夠復刻出真實世界中 “千人千面” 的消費心理。

      結語:電商的 “購物模擬器”

      Shop-R1 的落地價值,遠不止于幫用戶省下對比時間。對于電商巨頭而言,它更像是一個低成本、高保真的 “虛擬 A/B 測試” 環境。在傳統的運營邏輯中,測試一個新的推薦算法或頁面布局,往往需要真實的流量和真金白銀的補貼。而擁有了 Shop-R1 這樣具備 “人類邏輯” 的模擬導向智能體,平臺可以在實驗室環境中投喂數萬個 “AI 購物者”,觀察它們在面對價格波動、界面改版時的實時反饋。這不再是一個簡單的對話框,而是一個深刻理解人類欲望與權衡的購物模擬器。當 AI 開始學會解構那些復雜的瀏覽鏈路,并精準預測下一秒的操作時,人類與算法之間的博弈,才真正進入了認知的深水區。

      參考文獻:

      [1] Zhang Y, Gesi J, Xue R, et al. See, Think, Act: Online Shopper Behavior Simulation with VLM Agents [J]. arXiv preprint arXiv:2510.19245, 2025.

      [2] Wang Z, Lu Y, Zhang Y, et al. Customer-R1: Personalized simulation of human behaviors via RL-based LLM agent in online shopping [J]. arXiv preprint arXiv:2510.07230, 2025.

      第一作者介紹:

      張益萌,現任 Amazon Applied Scientist,研究方向為生成式 AI、AI Agent 與多模態智能體。2025 年于 Michigan State University 獲計算機科學博士學位,曾為 OPTML 實驗室成員,導師為劉思佳副教授。曾就讀于 Columbia University 與 University of Sheffield。其研究關注高效機器學習、模型魯棒性與安全,涵蓋 LLM、擴散模型和對抗學習等領域,在 CVPR、NeurIPS、ICLR、ICML 等國際會議發表多篇論文。



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      21年首次晉級世少賽!U17國足一雪前恥,2026五大目標已完成

      21年首次晉級世少賽!U17國足一雪前恥,2026五大目標已完成

      奧拜爾
      2026-05-13 01:56:27
      狄龍:我不認為這是詹姆斯最后一個賽季,他還能再打一年

      狄龍:我不認為這是詹姆斯最后一個賽季,他還能再打一年

      懂球帝
      2026-05-13 01:59:02
      鳳凰衛視著名主持人沈星,在母親節當天曬出了自己孕期產檢的照片

      鳳凰衛視著名主持人沈星,在母親節當天曬出了自己孕期產檢的照片

      歲月有情1314
      2026-05-11 15:07:23
      八村壘談成為自由球員:我愛湖人,但談判的事還是交給經紀人

      八村壘談成為自由球員:我愛湖人,但談判的事還是交給經紀人

      懂球帝
      2026-05-12 18:21:06
      賴清德7月“過境”美國將不準下飛機?賴氏“國際笑話”不斷上新

      賴清德7月“過境”美國將不準下飛機?賴氏“國際笑話”不斷上新

      海峽導報社
      2026-05-12 16:24:08
      44歲范冰冰近照判若兩人!與媽媽同框身形暴肥,這次是真懷孕了?

      44歲范冰冰近照判若兩人!與媽媽同框身形暴肥,這次是真懷孕了?

      八卦王者
      2026-05-12 15:27:14
      羅馬教皇遭銀行客服掛電話:必須本人前往銀行網點辦理

      羅馬教皇遭銀行客服掛電話:必須本人前往銀行網點辦理

      維城
      2026-05-08 19:29:12
      徹底撕破臉!央視硬剛天價轉播費后,資本報復手段簡直不堪入目

      徹底撕破臉!央視硬剛天價轉播費后,資本報復手段簡直不堪入目

      真的好愛你
      2026-05-12 06:49:30
      錢更難掙了!送面條老板哭訴每天送貨量減半,旁邊一大排店面空置

      錢更難掙了!送面條老板哭訴每天送貨量減半,旁邊一大排店面空置

      火山詩話
      2026-05-12 13:45:35
      92歲老中醫仍出診!他的“5不”養生經,簡單到人人都能做到

      92歲老中醫仍出診!他的“5不”養生經,簡單到人人都能做到

      神奇故事
      2026-05-11 22:38:56
      輸北京隊15分!揪出1個表現最差之人,坑慘了廣東隊

      輸北京隊15分!揪出1個表現最差之人,坑慘了廣東隊

      體育哲人
      2026-05-12 21:59:02
      中國政府獎學金留學人員抵達平壤,正式開啟在朝留學生活

      中國政府獎學金留學人員抵達平壤,正式開啟在朝留學生活

      大風新聞
      2026-05-11 08:36:09
      房產圈最近最大的瓜,當屬貝殼2025年財報的發布——沒有驚喜,全是驚嚇

      房產圈最近最大的瓜,當屬貝殼2025年財報的發布——沒有驚喜,全是驚嚇

      每日質量報道網
      2026-05-11 12:04:19
      86年我娶不起媳婦,一寡婦找到我,她說:我不要彩禮,但有三條件

      86年我娶不起媳婦,一寡婦找到我,她說:我不要彩禮,但有三條件

      千秋文化
      2026-04-30 19:19:24
      北京內線曝隱患!全程指望周琦,斯佩爾曼攻強守弱,麥基成笑話

      北京內線曝隱患!全程指望周琦,斯佩爾曼攻強守弱,麥基成笑話

      籃球資訊達人
      2026-05-13 02:59:49
      OPPO再致歉:從嚴處罰高級副總裁段要輝

      OPPO再致歉:從嚴處罰高級副總裁段要輝

      21世紀經濟報道
      2026-05-11 14:48:08
      3分鐘傾家蕩產?年入千億“精神鴉片”,正精準掏空中國人的錢包

      3分鐘傾家蕩產?年入千億“精神鴉片”,正精準掏空中國人的錢包

      趣文說娛
      2026-05-12 19:53:22
      周琦真想贏!第二節告訴教練組怎么換人,隨后上雙小外改變局勢!

      周琦真想贏!第二節告訴教練組怎么換人,隨后上雙小外改變局勢!

      籃球資訊達人
      2026-05-13 01:53:00
      好牛逼的狀元!29歲帶隊進西決,30歲帶隊進東決,31歲帶隊進東決

      好牛逼的狀元!29歲帶隊進西決,30歲帶隊進東決,31歲帶隊進東決

      球毛鬼胎
      2026-05-12 11:24:51
      U17國足晉級世少賽!21年首次,生死戰完勝卡塔爾,連破3魔咒

      U17國足晉級世少賽!21年首次,生死戰完勝卡塔爾,連破3魔咒

      奧拜爾
      2026-05-13 01:55:29
      2026-05-13 05:40:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12979文章數 142648關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      教育
      手機
      親子
      本地
      數碼

      教育要聞

      求求你試試「5+1+1」學習法!!!

      手機要聞

      10年支持不變:谷歌力?,F有Chromebook

      親子要聞

      夏天建議:把孩子的空調服換成它!

      本地新聞

      用蘇繡的方式,打開江西婺源

      數碼要聞

      看電視的人越來越多了 3億臺電視在線 小米第一

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 无码精品人妻一区二区三区免费看| 中文字幕卡二和卡三的视频| 久久久久无码中| 无码伊人66久久大杳蕉网站谷歌| 欧美性爱一区二区三区| 人妻熟女一区二区aⅴ清水理纱| 100禁毛片免费40分钟视频 | 巨熟乳波霸若妻在线播放| 亚洲日本乱码中文在线电影| 欧美性生交大片18禁止| 国产色婷婷精品综合在线| 免费无码av片在线观看国产 | 午夜免费国产体验区免费的| 日韩精品亚洲人成在线观看 | 亚洲熟妇无码一区二区三区导航| 国产精品白浆无码流出| 国产免费人成网站在线播放| 91在线精品免费免费播放| 国产H片无码不卡在线视频| 日韩av手机免费观看| 成人三级小说| 国产精品一区二区三区蜜臀| 国产va在线播放| 亚洲熟妇久久国内精品| 亚洲色一区二区三区四区| 亚洲色成人网一二三区| 大陆极品少妇内射aaaaa| www.97| 亚洲愉拍自拍欧美精品| 亚洲国产美女精品久久久| 日韩中文字幕免费在线观看| 国产精品女同一区三区五区| 欧美成人免费全部观看国产| 免费无码又爽又刺激高潮视频| 在线免费观看毛片av| 国产sm鞭打折磨调教视频| 国产精品毛片av999999| 久久精品黄aa片一区二区三区| 美女张开腿黄网站免费下载| 在线看片免费人成视久网下载| 国产精品自在线天天看片 |