<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      生成式推理再排序,可能會是LLM4RecSys的新突破口嗎?

      0
      分享至



      大模型(LLM)的世界知識和推理能力是實現下一代推薦系統,即基于大模型的推薦系統(LLM4Recsys)的重要基石。來自meta ai的研究者們嘗試將推理模型引入再排序階段,推薦系統的最后一環。

      推薦系統需要推理模型嗎?

      深度學習成為推薦系統的標準范式已經有十年左右的歷史。RNN/Transformer/GNN等模型在用戶交互數據上的性能已經被開發得非常接近飽和。正如近些年大語言模型,尤其是推理模型在通用任務上的優異性能所揭示得,讓推薦系統先思考再做出決定或許可以再次突破現有框架的性能上限;同時,還能為推薦的結果提供一定的可解釋性。

      論文通過監督微調(SFT)和強化學習(RL)來賦予通用推理模型在序列推薦任務上的推理能力。提出的訓練策略最終超過了LLM4Recsys標桿,OneRec-Think;提升了約2.4%Recall@5和約1.3%NDCG@5。





      ●論文標題:

      Generative Reasoning Re-ranker

      ●論文地址:

      https://arxiv.org/pdf/2602.07774

      中期訓練,內化物品的語意ID

      語意ID(semantic ID,SID)已經成為基于序列模型的推薦系統的標準技術之一,它的核心想法是通過多層次的聚類來賦予物品從粗到細粒度的標簽。常用的模型一般有Residual-Quantized Variational Autoencoder(RQ-VAE)和RQ-Kmeans;這篇論文使用的是RQ-VAE,并且基于常規的對比學習損失函數。同時,為了防止碼本坍縮,即有多個物品會被同時映射到一個SID的情況,本文采用了成熟的處理方案,用RQ-Kmeans先做初始化,結合EMA平滑更新字典,重置死碼本,加入多樣性損失函數,并且對最后一至兩位SID賦予隨機整數。

      本文的中期訓練采用的策略和OneRec-Think保持一致,將生成的SID混入自然語言組成的物品描述、物品預測等一系列任務中,去最小化next token prediction loss以優化SID的embedding來內化物品的本身語意。

      推理路徑的生成

      推理路徑(Reasoning trace)的生成是本文的核心技術之一。預訓練的推理模型并不具有(很強的)對物品序列的推理和解釋能力,尤其是考慮到在現實場景中需要實際部署時受限于延遲限制,LLM的體量有限,例如僅僅能支持最大8B。

      論文的核心想法是將大體量的LLM(比如32B模型)的推理能力蒸餾給小體量的LLM:即大LLM產生高質量的推理路徑,再讓小LLM去學習以增強其在推薦場景下的推理能力。目標采樣(target sampling)和拒絕采樣(reject sampling)兩種技術被使用了:



      目標采樣的核心想法就是把交互歷史和下一個真實交互物品的信息都交給LLM以生成解釋。該解釋就被作為reasoning trace。



      拒絕采樣則是只將交互歷史提供給LLM以預測下一個交互的物品以及生成解釋。一旦預測的結果和數據集的標準答案(ground truth)不一致,則繼續重復推理直到答對或者達到設定的最多重復推理次數。

      這兩種推理路徑的生成方式各有優劣:

      • 目標采樣對每一個樣本只需要推理一次,但是LLM可能會“牽強附會”,做“馬后炮”式的解釋。
      • 拒絕采樣生成的reasoning trace一般質量更高,因為錯誤的reasoning trace很可能沒法引導出正確的答案,而采樣過程又會一直持續到得到正確的答案為止。缺點也很顯然,對單一樣本需要多次推理,尤其是一些難的樣本。

      推理賦能的再排序階段

      開頭提過,論文重點關注再排序(re-ranking)階段。該階段在常規業界推薦漏斗中位于最后一環,以檢索(retrieval)和排序(ranking)階段的輸出作為輸入。作為學術研究,為了保持整個pipeline簡潔,論文將LLM本身預先作為retriever,輸入交互歷史,預測下一個最有可能的物品,采用beam search生成排序過的候選列表。再將該候選列表和交互歷史一同輸入LLM去做重排序。

      為了賦于小體量LLM(比如8B)完整的貼合推薦場景的推理能力,上一步生成的推理路徑先通過SFT手把手教給模型,這一步可以保證LLM的推理能力的下限。



      為了進一步提高模型的推理能力,強化學習配合推薦場景設計的reward在本文中被使用。在再排序場景下,顯然,目標物品的排序被模型提升的越多,模型的表現越好;這就是排序獎勵



      它測量的是經過模型重排序以后目標物品的排位變化。

      另一種常見的獎勵則是格式獎勵,即LLM的輸出還是保持著reasoning trace加最終答案,即排序過的列表,的理想格式。然而,簡單地將格式獎勵和任務相關的排序獎勵加和成最終獎勵在再排序任務中不可行,原因是預排序的候選列表是作為模型輸入的,模型可以通過完全不改變候選列表來放棄排序獎勵,而單純hack格式獎勵。基于此,最終的格式獎勵被設計成只有排序獎勵為正的時候才會被考慮。該獎勵被嵌入在DAPO優化框架中去更新LLM的參數。



      重排序的提升空間

      論文的最重要實驗結果披露出,重排序階段引入推理能力,尤其是通過強化學習增強,可以進一步提升性能上限。具體實驗對比了(1)該模型的預排序結果(Pre-rank),(2)僅依靠SFT訓練過得排序結果,和(3)強化學習進一步增強過的排序結果:



      有一些有趣的發現:

      • SFT可以給模型一定的推理能力,但是單單依靠SFT可能會傷害模型最終的準確度。
      • 沒有SFT直接通過強化學習(RL-zeroshot)并不能直接帶來顯著性能提升。
      • 拒絕采樣相比目標采樣能獲得更高質量的推理路徑。

      下一步?

      這篇論文的有趣之處在于,它不僅僅提供了~2%的Recall性能提升,而是提供了一種新的范式:模型不再是去單純擬合交互的概率分布,而是去擬合推理路徑和交互的聯合分布。

      同時也不可否認的是,重排序階段是應用推理模型的好場所,因為該階段剩下的候選物品是整個推薦漏斗中最少的了。模型在給予候選集的情況下逐一比較、推理,符合人類的思維流程。

      那么,在檢索和排序階段,候選集大小成千上萬的情況下,如何有效率地進行超大規模的候選集篩選?如何把海量的候選集有效率地塞入推理模型有限的輸入窗口?如何控制昂貴的推理成本?如何滿足用戶體驗所需要的超低時限?此外,現有策略也依賴拒絕采樣生成的高質量推理路徑,這在候選集超大的情況下所需要的重采樣次數將完全不可接受,樣本的效率將成為訓練成敗的關鍵因素。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      快速入睡無成癮!又一國產安眠新藥即將落地,3億失眠人有解了?

      快速入睡無成癮!又一國產安眠新藥即將落地,3億失眠人有解了?

      思思夜話
      2026-05-12 16:51:58
      32+35+43!聯盟第1!這就是騎士給他1.5億美金大合同的原因

      32+35+43!聯盟第1!這就是騎士給他1.5億美金大合同的原因

      世界體育圈
      2026-05-12 18:57:17
      才火1個月就涼了?莫氏雞煲無人排隊,網友:遲早的事!

      才火1個月就涼了?莫氏雞煲無人排隊,網友:遲早的事!

      雷科技
      2026-05-11 18:05:22
      劉三姐“全裸演出”引爭議,張藝謀惹怒全網

      劉三姐“全裸演出”引爭議,張藝謀惹怒全網

      營銷頭版
      2026-05-10 20:09:26
      越來越多的小城市和縣城,只剩下體制內經濟了!

      越來越多的小城市和縣城,只剩下體制內經濟了!

      燈錦年
      2026-05-12 21:06:47
      耶魯大學顛覆性發現:你常吃的健康食用油,竟會促進胰腺癌發生

      耶魯大學顛覆性發現:你常吃的健康食用油,竟會促進胰腺癌發生

      醫諾維
      2026-05-11 17:02:18
      起底 Token 中轉黑色產業鏈:日賺 200 萬美金!大佬扎堆入局,灰色套利套路碾壓現金貸

      起底 Token 中轉黑色產業鏈:日賺 200 萬美金!大佬扎堆入局,灰色套利套路碾壓現金貸

      新浪財經
      2026-05-12 00:15:49
      太甜蜜!梁靖崑倫敦世乒賽登頂奪冠,嬌妻專程遠赴現場,復婚后滿眼寵溺

      太甜蜜!梁靖崑倫敦世乒賽登頂奪冠,嬌妻專程遠赴現場,復婚后滿眼寵溺

      TVB的四小花
      2026-05-13 01:00:44
      深夜,全線下跌!美聯儲,突傳重磅!

      深夜,全線下跌!美聯儲,突傳重磅!

      券商中國
      2026-05-12 22:39:48
      錢更難掙了!送面條老板哭訴每天送貨量減半,旁邊一大排店面空置

      錢更難掙了!送面條老板哭訴每天送貨量減半,旁邊一大排店面空置

      火山詩話
      2026-05-12 13:45:35
      同一天兩起猝死!馬拉松再現悲?。焊邷?低齡參賽

      同一天兩起猝死!馬拉松再現悲?。焊邷?低齡參賽

      老王談跑步
      2026-05-12 15:03:29
      A·史密斯認為尼克斯隊,是勒布朗·詹姆斯5億美元合同的最佳選擇

      A·史密斯認為尼克斯隊,是勒布朗·詹姆斯5億美元合同的最佳選擇

      好火子
      2026-05-13 00:41:17
      “新能源車普遍偏大一點,我停在車位上,左右車門都不能打得特別開,有時候人都出不去……”最近不少車主感嘆:停車位縮水了?

      “新能源車普遍偏大一點,我停在車位上,左右車門都不能打得特別開,有時候人都出不去……”最近不少車主感嘆:停車位縮水了?

      都市快報橙柿互動
      2026-05-12 15:26:35
      青海17歲女學生溺亡!主動去的橋邊,知情人曝猛料,恐不止是意外

      青海17歲女學生溺亡!主動去的橋邊,知情人曝猛料,恐不止是意外

      北緯的咖啡豆
      2026-05-12 11:29:42
      創造歷史!國少隊2比0完勝卡塔爾:時隔21年重返世少賽

      創造歷史!國少隊2比0完勝卡塔爾:時隔21年重返世少賽

      邱澤云
      2026-05-13 02:36:31
      國家德比時亞馬爾造型吸睛,愛馬仕胸包大約7000至13000歐元

      國家德比時亞馬爾造型吸睛,愛馬仕胸包大約7000至13000歐元

      懂球帝
      2026-05-12 09:44:11
      央視與國際足聯談判破裂,越南1500萬購中國8000萬嫌貴

      央視與國際足聯談判破裂,越南1500萬購中國8000萬嫌貴

      無意爭春
      2026-05-12 12:24:43
      中紀委連發禁令:機關事業單位職工注意,這7種飯局一參加就出局

      中紀委連發禁令:機關事業單位職工注意,這7種飯局一參加就出局

      細說職場
      2026-05-10 09:55:02
      東北3歲小網紅吃播沉浸式吃飯,4大疑點持續引發爭議

      東北3歲小網紅吃播沉浸式吃飯,4大疑點持續引發爭議

      九方魚論
      2026-05-11 09:16:33
      徹底撕破臉!央視硬剛天價轉播費后,資本報復手段簡直不堪入目

      徹底撕破臉!央視硬剛天價轉播費后,資本報復手段簡直不堪入目

      真的好愛你
      2026-05-12 06:49:30
      2026-05-13 04:23:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12979文章數 142648關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      藝術
      教育
      數碼
      手機
      軍事航空

      藝術要聞

      震驚!他竟用鏡頭看透了所有女人的秘密!

      教育要聞

      求求你試試「5+1+1」學習法!!!

      數碼要聞

      看電視的人越來越多了 3億臺電視在線 小米第一

      手機要聞

      Android推新功能“暫停點” 助用戶擺脫刷手機上癮

      軍事要聞

      知情人士披露:美國或考慮恢復對伊朗軍事行動

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 一本无码av一区二区三区| 老司机精品福利视频在线观看| 国产亚洲成av片在线观看| 99久久久成人国产精品免费 | 午夜DY888国产精品影院| www.干| 成人黄色AV网站| 赣州市| 强奷漂亮少妇高潮伦理| www.911国产| 九九热爱视频精品| 国产精品丝袜诱惑福利| 亚洲国产精品久久久久秋霞影院| 男女性杂交内射妇女bbwxz| 免费A级毛片无码A∨蜜芽试看 | 亚洲国产不卡久久久久久| 玩丰满熟妇xxxx视频| h动态图男女啪啪27报gif| 国产精品自在自线视频| 亚洲综合成人av一区在线观看| 国内精品一区二区不卡| 日韩的一区二区| 中文字幕人妻无码一夲道| 狂野欧美性猛xxxx乱大交| 国产三区在线成人av| 无码国内精品久久人妻| 无码国产精品一区二区高潮| 伊人av网| 日韩有码中文字幕国产| 成人午夜福利视频一区二区| 亚洲精品影视| 中文字幕久久久久久精| 亚洲AV秘 无码一区二区在线 | 欧美亚洲国产丝袜在线| 久久亚洲道色宗和久久| 亚洲无码视频在线观看| 欧美一区二区三区性视频| 国产高清视频在线观看不卡v| 国产又色又爽无遮挡免费软件| 久久久国产打桩机| 国产精品18|