<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      回溯反饋強化學習

      0
      分享至

      回溯反饋強化學習

      Reinforcement Learning with Backtracking Feedback

      https://arxiv.org/pdf/2602.08377



      摘要

      針對大型語言模型(LLMs)在對抗性攻擊和分布內(nèi)錯誤方面對穩(wěn)健安全性的關(guān)鍵需求,我們提出了帶有回溯反饋的強化學習(Reinforcement Learning with Backtracking Feedback, RLBF)框架。該框架在先前方法(如 BSAFE)的基礎(chǔ)上進行了改進,主要通過利用強化學習(RL)階段,使模型學會動態(tài)糾正其自身生成過程中的錯誤。通過對模型實時輸出進行基于批評者(critic)反饋的強化學習,大型語言模型被訓練以識別并從其實際出現(xiàn)的、新興的安全違規(guī)行為中恢復:模型會發(fā)出一個高效的"回溯 x 個令牌"信號,然后以自回歸方式繼續(xù)生成。這一強化學習過程對于培養(yǎng)模型抵御復雜對抗策略的韌性至關(guān)重要,這些策略包括中段填充(middle filling)、貪婪坐標梯度(Greedy Coordinate Gradient, GCG)攻擊以及解碼參數(shù)操控等。為進一步支持這種回溯能力的習得,我們還提出了一種增強的監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)數(shù)據(jù)生成策略(BSAFE+)。該方法通過在原本連貫且安全的文本中注入違規(guī)行為,改進了先前的數(shù)據(jù)創(chuàng)建技術(shù),從而為回溯機制提供更有效的初始訓練。全面的實證評估表明,RLBF 在多樣化的基準測試和模型規(guī)模上顯著降低了攻擊成功率,在實現(xiàn)更優(yōu)安全結(jié)果的同時,關(guān)鍵性地保留了模型的基礎(chǔ)效用。

      1 引言

      大型語言模型(LLMs)[Vaswani 等人,2017;Radford 等人,2018;Brown 等人,2020;Gemini 團隊等人,2023,以及其他] 已展現(xiàn)出卓越的能力,變革了從自然語言理解與生成 [Wei 等人,2022;Ouyang 等人,2022] 到復雜推理 [Zhou 等人,2023;Sel 等人,2024a, 2025a]、優(yōu)化 [Li 等人,2023;Jin 等人,2024] 以及軟件開發(fā) [Chen 等人,2021;Thoppilan 等人,2022] 等諸多領(lǐng)域。隨著這些模型日益強大且廣泛應用,確保其安全性以及與人類價值觀的對齊至關(guān)重要 [Hendrycks 等人,2021]。這不僅涉及緩解模型在對抗性提示下生成明顯有害內(nèi)容的問題,還需應對更為細微的安全關(guān)切,例如毒性、偏見,以及生成誤導性或不安全信息的潛在風險 [Touvron 等人,2023;Kumar 等人,2023]。

      盡管已取得顯著進展,但當前主流的安全對齊技術(shù)——包括用于安全的監(jiān)督微調(diào)(SFT)[Leike 等人,2018;Kenton 等人,2021]、基于人類或人工智能反饋的強化學習(RLHF/RLAIF)[Ouyang 等人,2022;Bai 等人,2022b;Shen 等人,2023],以及直接偏好優(yōu)化(DPO)[Rafailov 等人,2023]——仍面臨顯著的局限性 [Qi 等人,2025;Zhang 等人,2025]。一個關(guān)鍵問題是模型傾向于發(fā)展出一種"淺層安全"響應,其特征通常表現(xiàn)為主要由提示或查詢的初始令牌觸發(fā)的拒絕機制 [Carlini 等人,2023]。這種表面化的對齊使模型易受復雜越獄技術(shù)和對抗性攻擊的影響,例如預填充攻擊(prefilling attacks)[Tang, 2024;Andriushchenko 等人,2025]、GCG [Zou 等人,2023b] 以及各種提示注入方法 [Zou 等人,2023a;Chao 等人,2025;Lin 等人,2024],這些攻擊可繞過初始安全檢查。此外,正如 ReG-QA [Addepalli 等人,2025] 等方法所展示的,即使是看似自然的提示也可能無意中引發(fā)不安全或有毒的響應,這凸顯了實現(xiàn)穩(wěn)健且可泛化的安全對齊所面臨的挑戰(zhàn)。

      現(xiàn)有的糾正機制,例如重置生成上下文 [Zhang 等人,2025;Qi 等人,2025],提供了部分解決方案,尤其針對聚焦于初始令牌操控的攻擊。然而,重置可能效率極低,常常因序列后期出現(xiàn)的孤立安全違規(guī)而丟棄大量有效且有用的已生成文本 [Hartvigsen 等人,2022;Lin 等人,2023]。例如,生成了數(shù)頁正確的代碼,卻僅因包含一條冒犯性評論,理想情況下不應導致丟棄整個輸出。雖然先前的回溯方法(如 BSAFE [Sel 等人,2025b])旨在實現(xiàn)更具針對性的糾正,但其提出的機制——通常涉及重復有害片段后再進行編輯——可能效率低下。

      為克服這些不足,我們提出了帶有回溯反饋的強化學習(RL with Backtracking Feedback),這是一種新穎的框架,旨在賦予大型語言模型在生成過程本身中動態(tài)識別并糾正安全違規(guī)的能力。我們的方法利用安全批評者(safety critics)——可針對特定安全類別(如毒性、有害性、偏見)進行專門化——以實時監(jiān)控模型的輸出。一旦批評者檢測到問題片段,我們的核心創(chuàng)新在于一種顯著簡化的回溯機制:模型并非執(zhí)行復雜的"重復后編輯"流程,而是簡單地被信號指示"回溯 x 個令牌",其中 x 是一個整數(shù),表示需要回退的令牌數(shù)量,以到達違規(guī)行為發(fā)生前已知的安全狀態(tài)。這使得模型能夠高效地僅丟棄問題片段,并從安全點繼續(xù)生成。我們認為,這種直接的回溯指令提升了效率,并避免了與先前方法相關(guān)的生成偽影(artifacts)。

      總之,本文介紹了帶有回溯反饋的強化學習(RL with Backtracking Feedback),這是一個通過高效的生成中糾正來增強大型語言模型(LLM)安全性的框架。我們的貢獻如下:

      1. 一種新穎且高效的回溯機制,使用簡單的“回溯 x 個令牌(backtrack by x tokens)”指令,能夠以最小的干擾和偽影生成,實現(xiàn)對安全違規(guī)的針對性糾正。
      2. 一種改進的監(jiān)督微調(diào)(SFT)數(shù)據(jù)生成方法論,通過將安全違規(guī)插入連貫的文本中來創(chuàng)建真實的訓練場景,從而為學習回溯行為提供精確的監(jiān)督。
      3. 一種利用批評者(critic)反饋進行分布內(nèi)(in-distribution)學習的強化學習(RL)范式,強調(diào)修復生成錯誤的能力,而不僅僅是預防錯誤。

      后續(xù)章節(jié)將詳細闡述我們的方法論、實驗設(shè)計、將我們的方法與基線進行比較的結(jié)果,并討論動態(tài)、糾正性 LLM 安全機制研究的意義及未來途徑。

      2 相關(guān)工作

      大型語言模型中的安全對齊。確保大型語言模型(LLMs)生成的輸出與人類價值觀和倫理保持一致,是一個關(guān)鍵的研究領(lǐng)域。一種被廣泛采用的策略是基于人類或人工智能反饋訓練一個獎勵模型,隨后使用強化學習技術(shù)(如近端策略優(yōu)化,Proximal Policy Optimization, PPO)[Ouyang 等人,2022;Bai 等人,2022a,b] 對生成模型進行微調(diào)。這種基于人類/人工智能反饋的強化學習(RLHF/RLAIF)范式旨在訓練既有益又無害的模型 [Hendrycks 等人,2021]。然而,基于強化學習的方法可能在計算上代價高昂且實現(xiàn)復雜。因此,研究者正在探索替代方案,例如直接微調(diào)方法(如直接偏好優(yōu)化,Direct Preference Optimization, DPO)[Rafailov 等人,2023],以及其他用于增強安全性的非強化學習技術(shù) [Yuan 等人,2023]。這些方法共同應對著一項重大挑戰(zhàn):在努力維持模型高性能與效用的同時,最大限度地減少有害或不道德內(nèi)容的生成。盡管取得了這些進展,許多現(xiàn)有的安全對齊技術(shù)仍可能表現(xiàn)出"淺層安全"(shallow safety)的特征,即易受復雜對抗性攻擊的影響——這些攻擊可通過操控提示結(jié)構(gòu)或在輸入后期注入惡意指令來繞過初始安全檢查 [Qi 等人,2025;Zhang 等人,2025;Carlini 等人,2023]。

      生成優(yōu)化與自我糾正。另一條研究路線聚焦于改進和優(yōu)化語言模型的輸出,通常涉及迭代過程或用于處理生成過程中錯誤的機制。自我優(yōu)化模型通過探索多種視角或生成替代性續(xù)寫等方式,迭代地增強其輸出 [Madaan 等人,2023;Ma 等人,2023;Sel 等人,2024b]。研究者也開發(fā)了在生成過程中融入探索、優(yōu)化與適應機制的大規(guī)模模型 [Long, 2023;Yao 等人,2023;Sel 等人,2024a]。為增強模型抵御對抗性攻擊和生成失敗的安全性,研究者提出了在檢測到不安全內(nèi)容時修改生成過程的技術(shù)。這些技術(shù)包括:將模型狀態(tài)重置到更早的節(jié)點以對抗對抗性攻擊 [Qi 等人,2025;Zhang 等人,2025]、防御后綴攻擊(suffix attacks)[Zou 等人,2023b]、調(diào)整解碼參數(shù)以緩解災難性失敗 [Huang 等人,2024],以及總體上應對越獄嘗試 [Andriushchenko 等人,2025]。"斷路器"(Circuit Breakers)[Zou 等人,2024] 代表了該領(lǐng)域的另一種方法,其目標是通過控制內(nèi)部表征,在模型即將生成有害輸出時中斷其運行。

      3 增強語言模型中的回溯能力

      目前已提出多種使語言模型能夠進行回溯的方法。例如,“重置”(Reset)機制 [Qi 等人,2025;Zhang 等人,2025] 涉及直接回退到生成的開頭,或生成一個特殊的 [RESET] 詞元。雖然該策略適用于在生成序列早期出現(xiàn)的問題,但對于文本較深處出現(xiàn)的安全違規(guī)行為則效率低下,因為它可能需要丟棄大量詞元來糾正一小段內(nèi)容。BSAFE 方法 [Sel 等人,2025b] 提供了一種更具針對性的方法:通過生成類別特定詞元(例如 [TOXICITY]、[HEALTH_VIOLATION])來標記違規(guī)行為,隨后在恢復生成之前,用安全的替代內(nèi)容重寫有害部分。BSAFE 的一個關(guān)鍵優(yōu)勢在于其能夠在測試時控制每個類別的回溯概率。然而,盡管比完全重置更高效,重寫問題片段的要求仍然損害了整體效率。因此,我們提出了一種更精簡的機制:生成一個 [CATEGORY] 詞元以識別違規(guī)類型,隨后生成一個 [BACKTRACK_BY_X] 詞元,其中 X 是一個正整數(shù),表示需要刪除的前序詞元數(shù)量。該方法同樣保留了在測試時控制每個類別回溯概率的能力。

      模型學習回溯的方法與回溯機制本身同樣關(guān)鍵。“重置”方法通常采用掩碼監(jiān)督微調(diào)(SFT),其中有害片段被掩碼化,以訓練模型生成 [RESET] 詞元和適當?shù)木芙^文本,通常輔以直接偏好優(yōu)化(DPO)。BSAFE [Sel 等人,2025b] 采用了一種定制的掩碼 SFT 策略,用于處理需要編輯而非完全拒絕的更細微的安全違規(guī)行為。他們的數(shù)據(jù)生成過程涉及提示一個模型就各種主題提問和回答,然后由另一個模型標注特定的安全類別違規(guī)。然而,我們觀察到該方法傾向于生成通用示例和較低質(zhì)量的答案,盡管 BSAFE 作者并未報告數(shù)學基準測試上的性能下降。事實上,當我們在 LMSYS 基準測試上評估使用 BSAFE 數(shù)據(jù)生成策略訓練的指令微調(diào)(IT)模型時,其性能(由一個更強的模型 Gemini 2.0 評判)顯著低于標準 IT 模型(勝率為 28.2% 對比 71.8%)。此外,從單一模型生成響應作為訓練數(shù)據(jù),可能導致被訓練模型出現(xiàn)分布外的安全續(xù)寫。

      為了解決這些局限性,我們提出了 BSAFE+,這是一種用于讓 LLM 學習回溯的新型數(shù)據(jù)生成策略。該策略首先使用一個有能力的待訓練基礎(chǔ)模型,為相關(guān)查詢(例如來自聊天數(shù)據(jù)集)生成高質(zhì)量的答案。隨后,在與原始查詢和周圍文本相關(guān)的、隨機但上下文連貫的位置,將有害或越獄片段注入到這些安全答案中。該方法提供了一個關(guān)鍵優(yōu)勢:由于我們從完整的原始安全答案開始,我們知道精確的回溯位置和正確的安全續(xù)寫內(nèi)容,這本質(zhì)上對于基礎(chǔ)模型而言是分布內(nèi)的。這保留了模型的答案質(zhì)量(49.4% 對比 50.6%)。

      4 帶有回溯反饋的強化學習

      我們提出的框架——帶有回溯反饋的強化學習(RL with Backtracking Feedback),旨在通過使大型語言模型(LLMs)能夠在生成過程中動態(tài)檢測并糾正安全違規(guī),從而在其中灌輸穩(wěn)健的安全措施。該方法通過整合一個涉及實時監(jiān)控和高效糾正機制的反饋循環(huán),超越了靜態(tài)安全過濾器或簡單的拒絕機制。我們框架的核心組件包括:(1) 一種通過監(jiān)督微調(diào)(SFT)教授的高級回溯機制,以及 (2) 一個利用 LLM 安全批評者(safety critic)反饋來優(yōu)化模型策略的強化學習(RL)階段。

      4.1 回溯機制與監(jiān)督微調(diào)

      有效的回溯既需要一個定義明確的機制,也需要一種穩(wěn)健的方法來教導模型如何使用它。

      4.1.1 提出的詞元高效回溯機制

      我們提出了一種更精簡的回溯機制。當檢測到一個跨越 X X個詞元的安全違規(guī)時(結(jié)束于詞元 ),模型被訓練去執(zhí)行以下操作:


      4.1.2 用于高效回溯的監(jiān)督微調(diào)

      為了教授這種行為,我們采用了一種專門設(shè)計的 SFT(監(jiān)督微調(diào))策略:


      4.2 帶有評論家反饋的強化學習

      繼監(jiān)督微調(diào)(SFT)之后,強化學習(RL)被用于進一步優(yōu)化模型策略 π θ
      ,鼓勵主動安全性并最優(yōu)地利用回溯機制。

      4.2.1 LLM 安全評論家


      4.2.2 獎勵函數(shù)


      4.2.3 結(jié)合 SFT 數(shù)據(jù)整合的 GRPO 優(yōu)化





      5 實驗結(jié)果

      在本節(jié)中,我們提供經(jīng)驗證據(jù)以驗證帶有回溯反饋的強化學習(RLBF)的有效性。我們與相關(guān)基線進行了對比分析,包括標準指令微調(diào)模型(IT)、在我們排除了特定回溯獎勵的獎勵函數(shù)上訓練的 IT 模型、BSAFE+ 以及 Circuit Breakers [Zou et al., 2024],重點關(guān)注對抗攻擊的魯棒性以及模型實用性的保留。我們在補充材料中提供了重現(xiàn)這些實驗所需的所有必要信息。

      5.1 對抗有害內(nèi)容生成的魯棒性

      我們首先評估模型在抵御生成有害內(nèi)容方面的韌性,特別是在遭受旨在規(guī)避標準安全機制的攻擊時。表 1 總結(jié)了在 LMSYS 基準測試上的攻擊成功率(ASR),包括標準形式和疊加了中間填充(MF)攻擊的形式,涵蓋了各種規(guī)模的 Gemma 2 和 LLaMA 3 模型。


      基線 IT 模型表現(xiàn)出的高 ASR(在 LMSYS-MF 上為 68%–81%,在 LMSYS 上為 24%–28%)凸顯了標準指令微調(diào)在實現(xiàn)穩(wěn)健安全性方面的已知局限性。這些模型通常會形成“淺層安全性”,很容易被類似 MF 的攻擊繞過,這類攻擊在初始良性上下文之后注入惡意指令。使用 RL 觀察到的邊際改進(在 LMSYS-MF 上為 61%–72%,在 LMSYS 上為 22%–25%)表明,傳統(tǒng)的 RLHF/RLAIF 雖然可能減少對良性提示的直接拒絕,但如果沒有特定機制,并不能內(nèi)在地使模型具備處理復雜的、上下文內(nèi)安全違規(guī)的能力。

      形成鮮明對比的是,采用回溯機制的方法在對抗 MF 攻擊時表現(xiàn)出顯著增強的魯棒性。BSAFE+(ASR 為 3%–6%)和我們的 RLBF(ASR 為 3%–7%)都大幅降低了成功率。這強烈表明,動態(tài)的、生成過程中的修正機制對于應對超越簡單提示級過濾的攻擊至關(guān)重要。通過允許模型撤回在生成中途被識別出的違規(guī) token,這些方法有效地化解了 MF 攻擊的核心策略。

      有趣的是,雖然 BSAFE+ 和 RLBF 在對抗 MF 攻擊時表現(xiàn)相當,但 RLBF 在標準 LMSYS 有害查詢子集上取得了顯著更優(yōu)的結(jié)果(RLBF 的 ASR 為 1%–2%,而 BSAFE+ 為 14%–17%)。這表明 RLBF 提供了更全面的安全性提升。我們推測這一優(yōu)勢源于我們框架的兩個關(guān)鍵方面:

      1. 集成 RL 優(yōu)化:RLBF 中的 RL 組件顯式地優(yōu)化策略,不僅通過回溯來修正錯誤,還從源頭避免生成違規(guī)內(nèi)容,利用來自模型自身生成分布的評論家反饋。與可能更依賴其 SFT 教授的修正反射的 BSAFE+ 相比,這可能導致內(nèi)在更安全的生成傾向。
      2. 高效回溯信號:與 BSAFE 使用的多 token [backtrack] ... [replace] ... 序列相比,更簡單的“回溯 x 個 token”命令對模型來說可能是更直接、更容易學習的信號,這可能導致修正執(zhí)行的可靠性更高。

      這些發(fā)現(xiàn)在不同模型家族和規(guī)模上的一致性進一步表明了我們方法的普遍適用性。

      表 2 將這一分析擴展到其他對抗性策略:貪婪坐標梯度(GCG)攻擊和解碼參數(shù)操縱。這些攻擊代表了不同的威脅向量,用于測試模型的內(nèi)部魯棒性以及對生成配置的敏感度。在對抗 GCG 攻擊時,與所有基線相比,包括表現(xiàn)強勁的 Circuit Breakers(ASR 為 10.7%–13.4%)和 BSAFE+(ASR 為 5.7%–6.6%),RLBF 始終實現(xiàn)了最低的攻擊成功率(4.3%–4.7%)。類似地,在對抗解碼參數(shù)攻擊時,雖然 BSAFE+ 和 RLBF 都表現(xiàn)出色(例如在 MaliciousInstruct 上 ASR 均為 1.0%),但 RLBF 在 HEx-PHI 基準測試上顯示出輕微優(yōu)勢(3.7% 對比 5.0%)。這種在多樣化、自適應攻擊下的優(yōu)越表現(xiàn)進一步強化了 RLBF 中集成 RL 優(yōu)化的優(yōu)勢,這可能培養(yǎng)了比僅依靠基于 SFT 的修正或外部過濾器所能實現(xiàn)的、更為根本性的安全違規(guī)魯棒性。


      5.2 模型實用性的保留

      對于任何安全干預措施而言,一個關(guān)鍵的考量因素是其對模型通用能力的潛在影響——即所謂的“對齊稅(alignment tax)”。我們通過評估模型在標準學術(shù)基準測試上的表現(xiàn)來對此進行評估:MMLU(通用知識)、BBH(復雜推理)、GSM8K(數(shù)學應用題)和 MATH(高等數(shù)學)。表 3 比較了基礎(chǔ) IT 模型、BSAFE+ 和 RLBF 在 Gemma2 9B 和 LLaMA 3 8B 上的實用性。


      結(jié)果令人信服地表明,RLBF 所提供的實質(zhì)性安全提升并未以犧牲實用性為代價。在所有四個基準測試和兩個基礎(chǔ)模型上,RLBF 的性能與原始 IT 模型和 BSAFE+ 模型幾乎無法區(qū)分。例如,配備 RLBF 的 Gemma2 9B 在 MMLU 上達到 70.7%,在 MATH 上達到 35.6%,而 IT 基線分別為 70.6% 和 35.4%。同樣,配備 RLBF 的 LLaMA 3 8B 在 BBH 上得分為 64.2%,在 GSM8K 上為 63.1%,與 IT 基線的 64.1% 和 63.1% 相一致。

      這種實用性的保留是一個至關(guān)重要的成果。它表明我們的框架成功地隔離了安全機制,主要在評論家檢測到安全違規(guī)時才觸發(fā)回溯。在正常的、良性的生成過程中,模型基本上作為能力強大的指令微調(diào)基礎(chǔ)模型運行。SFT 策略(將安全修正數(shù)據(jù)與標準指令數(shù)據(jù)混合)以及 RL 目標的性質(zhì)(獎勵安全續(xù)寫,包括成功的回溯)有效地防止了災難性遺忘或核心能力的顯著退化。這證實了 RLBF 提供了一條實現(xiàn)穩(wěn)健安全性的路徑,同時不會損害模型在通用任務上的有用性。

      5.3 各安全類別的分析

      在各種模型規(guī)模(Gemma 2 2B、LLaMA 3 1B 和 LLaMA 3 3B)和安全類別中,如表 4 所示,RLBF 在 LMSYS-MF 基準測試上始終展現(xiàn)出較高的攻擊防御率,通常在仇恨言論、有毒內(nèi)容、政治、健康、暴力內(nèi)容和金融等類別上達到或超過 0.96 的防御率。雖然危險內(nèi)容、色情內(nèi)容、公共安全和非法藥物等類別顯示出略低但仍穩(wěn)健的防御率(通常為 0.92 至 0.96),但整體性能表明,RLBF 提供了一個全面的安全層,能夠有效應對廣泛類型的有害內(nèi)容,即使在中途填充(Middle Filling)攻擊等對抗性條件下,也能成功識別并緩解違規(guī)行為。


      5.4 生成中途回溯能力的影響

      如表 5 的消融實驗所示,RLBF 在輸出過程中動態(tài)回溯并修正生成內(nèi)容的能力對其安全性的提升至關(guān)重要,尤其是在抵御對抗性攻擊方面。盡管標準 IT 模型和 RL 模型的 ASR 較高(分別為 24% 和 22%),且即使是配備了回溯機制的 BSAFE+ 在 LMSYS 基準測試上的 ASR 也達到了 14%,但完整的 RLBF 模型實現(xiàn)了顯著更低的 ASR,僅為 1%。完全消融回溯能力(“RLBF (w/o Back.)”)使 ASR 上升至 18%,證明了該機制的重要性;但更為關(guān)鍵的是,專門在生成過程的中途禁用回溯(“RLBF (w/o Back. in Middle)”)會導致 ASR 達到 7%,這凸顯了在生成的任何階段具備回溯能力的重要性。


      6 結(jié)論

      我們提出了帶有回溯反饋的強化學習(RLBF),以增強大語言模型(LLM)抵御對抗性攻擊和分布內(nèi)(in-distribution)錯誤的安全性,從而改進了先前的方法。RLBF 利用一種 token 高效的“回溯 x 個 token”機制實現(xiàn)動態(tài)自我修正,該機制通過增強的 BSAFE+ SFT 數(shù)據(jù)生成進行教授。核心的 RL 階段利用實時的評論家反饋,訓練模型通過適當回溯來主動修正新出現(xiàn)的違規(guī)行為。實證結(jié)果表明,RLBF 在顯著降低跨模型和跨基準測試的攻擊成功率的同時,保持了模型的實用性。本研究通過賦予 LLM 動態(tài)自我修正的能力,提供了一種更為穩(wěn)健和高效的安全范式。

      原文鏈接:https://arxiv.org/pdf/2602.08377

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      布魯斯·威利斯30年前爛片逆襲,Netflix前十

      布魯斯·威利斯30年前爛片逆襲,Netflix前十

      時光慢旅人
      2026-05-18 01:38:00
      安理會重磅發(fā)聲!中方強硬亮劍:以色列必須無條件撤出

      安理會重磅發(fā)聲!中方強硬亮劍:以色列必須無條件撤出

      低調(diào)看天下
      2026-05-17 16:59:30
      全網(wǎng)都猜錯了!張?zhí)m突然停更阿姨被臨時調(diào)休,真相是汪小菲的用心

      全網(wǎng)都猜錯了!張?zhí)m突然停更阿姨被臨時調(diào)休,真相是汪小菲的用心

      阿廢冷眼觀察所
      2026-05-16 16:21:06
      林徽因落選的國徽方案,網(wǎng)友看后感嘆:審美確實厲害,但真不合適

      林徽因落選的國徽方案,網(wǎng)友看后感嘆:審美確實厲害,但真不合適

      浩渺青史
      2026-04-17 13:55:15
      賭王孫女不幸離世終年58歲!追思會內(nèi)部曝光,親友送別最后一程

      賭王孫女不幸離世終年58歲!追思會內(nèi)部曝光,親友送別最后一程

      喜歡歷史的阿繁
      2026-05-17 22:27:50
      耿同學扳倒多個學術(shù)大拿,本人背景曝光,他這么干的原因找到了

      耿同學扳倒多個學術(shù)大拿,本人背景曝光,他這么干的原因找到了

      平老師666
      2026-05-15 21:35:30
      中國為啥能迅速崛起,德國專家給出看法:中國沒覆蓋全民族的宗教

      中國為啥能迅速崛起,德國專家給出看法:中國沒覆蓋全民族的宗教

      抽象派大師
      2026-05-16 15:17:29
      為什么男人每次偷情要開房,女人每次偷情都在車里呢?

      為什么男人每次偷情要開房,女人每次偷情都在車里呢?

      思絮
      2026-04-28 10:25:11
      玩嗨了!黃仁勛在大爺煙斗上簽名,庫克買咖啡,特朗普兒子游長城

      玩嗨了!黃仁勛在大爺煙斗上簽名,庫克買咖啡,特朗普兒子游長城

      青杉依舊啊啊
      2026-05-17 07:47:44
      多名院士調(diào)查發(fā)現(xiàn):吃一口久放至黑斑的香蕉,或等于進一次毒?

      多名院士調(diào)查發(fā)現(xiàn):吃一口久放至黑斑的香蕉,或等于進一次毒?

      路醫(yī)生健康科普
      2026-05-17 19:35:03
      慌了!知名化工平臺暴雷!十億元無法履約!1600家企業(yè)錢貨兩空!

      慌了!知名化工平臺暴雷!十億元無法履約!1600家企業(yè)錢貨兩空!

      新浪財經(jīng)
      2026-05-17 12:12:48
      網(wǎng)友說未來盡量別去夜場,小仙女們要化債了!

      網(wǎng)友說未來盡量別去夜場,小仙女們要化債了!

      燈錦年
      2026-05-16 14:42:03
      臺灣回歸終極方案:土地回歸中國,人員自由往來,兩岸統(tǒng)一新路徑

      臺灣回歸終極方案:土地回歸中國,人員自由往來,兩岸統(tǒng)一新路徑

      陳腕特色體育解說
      2026-05-17 21:12:19
      一個人認知在不在你之上,看這4個細節(jié)就夠了

      一個人認知在不在你之上,看這4個細節(jié)就夠了

      洞見
      2026-04-16 11:35:51
      炸了!溫州砸 23 億干大事,214 萬畝荒山變綠

      炸了!溫州砸 23 億干大事,214 萬畝荒山變綠

      奇葩游戲醬
      2026-05-18 03:26:37
      圖片報:1860球迷惡搞拜仁奪冠慶典,被眼尖的諾伊爾先發(fā)現(xiàn)

      圖片報:1860球迷惡搞拜仁奪冠慶典,被眼尖的諾伊爾先發(fā)現(xiàn)

      懂球帝
      2026-05-17 21:39:36
      35美元小配件,讓有線CarPlay變無線

      35美元小配件,讓有線CarPlay變無線

      賽博蘭博
      2026-05-17 03:15:05
      99%的女人出軌完男人后,都會默契地做出這3種行為,不信你看看

      99%的女人出軌完男人后,都會默契地做出這3種行為,不信你看看

      加油丁小文
      2026-05-03 08:30:16
      朱珠與老公上海南京西路街邊喝咖啡被偶遇,美的像拍偶像劇!

      朱珠與老公上海南京西路街邊喝咖啡被偶遇,美的像拍偶像劇!

      動物奇奇怪怪
      2026-05-16 12:41:37
      俄烏打完后,俄國際地位會下降到何種地步?看俄羅斯周邊就知道!

      俄烏打完后,俄國際地位會下降到何種地步?看俄羅斯周邊就知道!

      忠于法紀
      2026-05-16 17:49:52
      2026-05-18 04:20:49
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1407文章數(shù) 19關(guān)注度
      往期回顧 全部

      科技要聞

      三大運營商即將免月租?多方回應

      頭條要聞

      內(nèi)塔尼亞胡與特朗普通話 討論重啟對伊朗軍事打擊

      頭條要聞

      內(nèi)塔尼亞胡與特朗普通話 討論重啟對伊朗軍事打擊

      體育要聞

      生死戰(zhàn)只拿3分的核心,還有留的必要嗎?

      娛樂要聞

      盧昱曉道歉:認識到問題嚴重性!

      財經(jīng)要聞

      長鑫科技 預計上半年凈利至少500億元

      汽車要聞

      車長超5米/雙動力可選 昊鉑S600預售權(quán)益價18.89萬起

      態(tài)度原創(chuàng)

      健康
      家居
      本地
      房產(chǎn)
      軍事航空

      專家揭秘干細胞回輸?shù)陌踩L險

      家居要聞

      110㎡淡而有致的生活表達

      本地新聞

      用蘇繡的方式,打開江西婺源

      房產(chǎn)要聞

      老黃埔熱銷之下,珠江春,為何去化僅3成?

      軍事要聞

      黎以停火再延長 空襲卻未停止

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 欧美一级99在线观看国产| 男女猛烈拍拍拍无挡视频| 国产va视频| 久久国产精品99久久久久久口爆| 好男人社区影视在线WWW| 91亚洲国产三上悠亚在线播放| 国产亚洲精品AA片在线爽| 3Pav图| 亚洲国产精品色一区二区| 国产成人8x视频一区二区| 蜜臀av一区二区国产在线| [无码破解]AV破解版在线观看| 无码人妻丰满熟妇区毛片| 精品99re66一区三区| 狠狠色噜噜狠狠狠狠五月婷| 国产av高清无亚洲| 在线看无码的免费网站| 超碰97人人模人人爽人人喊 | 亚洲AV无码一区二区三区波多野结衣 | 亚洲精品免费视频| 人妻综合页| 成人在线网址| 国产又爽又黄又不遮挡视频| 亚洲熟妇自拍无码区| 国产一区二区日韩经典| 日韩av一区在线| 夜夜嗨AV一区二区三区网页| 久久久久99精品成人片欧美一区| 精品久久精品午夜精品久久| 翁牛特旗| 国产久操视频| 久久精品国产91久久麻豆| 免费3?P视频久久| 国产91精选在线观看| 大桥未久亚洲无AV码在线| 亚洲精品亚洲人成在线观看| 国产农村乱对白刺激视频| 久久国产乱子伦视频无卡顿| 色综合久久无码五十路人妻| 日本一区免费视频| 国产成人无码av一区二区在线观看|