<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      AP2O-Coder 讓大模型擁有「錯題本」,像人類一樣按題型高效刷題

      0
      分享至



      作者:上交博士,在騰訊codebuddy 實習,發表一作頂會頂刊論文10篇(含best paper 等),開源PFLlib等明星項目,獲得社區贊譽。主要研究AI強化學習、AI合成數據、Agent 記憶等。

      在 AI 輔助 Coding 技術快速發展的背景下,大語言模型(LLMs)雖顯著提升了軟件開發效率,但開源的 LLMs 生成的代碼依舊存在運行時錯誤,增加了開發者調試成本。

      現有基于偏好優化的改進方法,多依賴「通過 / 失敗」二元信號構建訓練數據,難以知曉「錯在哪」,也忽視了模型能力在訓練時的動態變化特性。

      針對此缺口,在騰訊 CodeBuddy 實習期間,我們提出自適應漸進式偏好優化方法(AP2O),并構建 AP2O-Coder 框架。該方法借鑒人類的「按題型高效刷題」經驗出發,通過「考試 - 分析 - 糾錯 - 小測」的系統性流程提升模型代碼糾錯能力,在多款主流開源模型上實現最高 3% 的 pass@k 性能提升,同時降低訓練數據需求量。



      • 論文標題:AP2O-Coder: Adaptively Progressive Preference Optimization for Reducing Compilation and Runtime Errors in LLM-Generated Code
      • 論文鏈接:https://arxiv.org/pdf/2510.02393
      • 開源代碼:https://github.com/TsingZ0/AP2O

      一、現有方法的核心挑戰

      與 AP2O-Coder 的針對性設計

      當前離線偏好優化方法(如 DPO 等)在 LLM 代碼糾錯任務中面臨三大核心挑戰:

      • 錯誤類型感知缺失:僅依賴單元測試的二元反饋信號,無法知曉類型錯誤(如 KeyError、ValueError 等),導致模型難以定位錯誤原因;
      • 訓練聚焦性不足:訓練數據采用隨機打亂的方式批量輸入,模型需在多種錯誤類型間頻繁切換適應,糾錯學習的針對性不強;
      • 動態適配能力薄弱:靜態構建的訓練集無法匹配模型訓練過程中不斷變化的能力短板,易引發災難性遺忘或訓練資源浪費。

      為應對上述挑戰,AP2O-Coder 借鑒人類按題型進行的「錯題整理 - 專題突破 - 定期復盤」的學習模式,構建了包含四大核心模塊的優化框架,旨在實現錯誤信息的深度利用與模型能力的動態適配。

      二、AP2O-Coder 的

      核心技術框架與工作機制

      AP2O-Coder 的核心設計思路是通過系統化流程實現錯誤類型的精準捕捉、漸進式優化與動態適配,其整體框架包含四個關鍵步驟(如圖 1 所示):



      圖 1:AP2O-Coder 框架流程圖

      代碼生成評估(Exam)

      為全面掌握目標模型的初始能力邊界,該模塊讓 LLM 在 M 個編程任務上生成 N 個候選答案(采用溫度系數 1.0 的設置以充分探索能力范圍),通過配套的單元測試獲取每個答案的「通過 / 失敗」標簽,形成初始訓練數據集,為后續錯誤分析提供基礎。

      錯誤診斷分析(Analysis)

      借助編程語言專用分析工具(如 Python 解釋器)對所有失敗答案進行結構化解析,標注具體錯誤類型并統計各類錯誤的出現頻率,按錯誤題型構建結構化的「錯題本」。該過程實現了從二元反饋到精細化錯誤信息的轉化,為針對性優化提供數據支撐。

      漸進式偏好優化(Correction)



      自適應錯誤回放(Quiz)

      為適配模型訓練過程中的能力變化,該模塊定期在一個小驗證集上評估模型性能,實時捕捉當前階段的高頻錯誤類型,找出模型依舊犯錯的題型,將其對應的失敗答案重新納入訓練流程。通過動態調整訓練數據分布,確保模型始終聚焦于當前的能力短板,有效緩解災難性遺忘問題。

      三、實驗驗證與結果分析

      研究團隊在 6 款主流 LLM(含代碼專用模型 CodeLlama、DeepSeek-Coder、Qwen2.5-Coder 與通用模型 Llama3、Qwen2.5、Qwen3)上開展了系統驗證,參數規模覆蓋 0.5B - 34B,實驗基準包括 EvalPlus(HumanEval/MBPP)與 LiveCodeBench v6,主要取得以下研究發現:

      性能提升的有效性

      在不同類型與參數規模的模型上,AP2O-Coder 均展現出穩定的性能改進。如下表所示,在 EvalPlus(HumanEval)基準上,AP2O-Coder (H2L) 即使對于 30B+ 的大參數模型,也能實現 2.8% - 3.4% 的性能優化,且未出現現有后訓練方法中性能退化現象。



      表 1:各種類型和規模代碼的 LLM 在 Pass@1 on EvalPlus (HumanEval) 上的表現。

      錯誤抑制效果與泛化能力



      圖 2:使用 Qwen2.5-Coder-7B 在測試基準上出現錯誤的統計數據。



      圖 3:使用 Qwen2.5-Coder-7B 在測驗階段對驗證集上的錯誤統計結果。我們的 AP2O-Coder 能夠逐步減少錯誤。

      如圖 2 所示,相較于 SFT、DPO 等基線方法,AP2O-Coder 能夠有效降低各類錯誤的發生頻率,且未引入新的錯誤類型。如圖 3,在 Qwen2.5-Coder-7B 的實驗中,高頻錯誤「WrongResult」的發生率顯著下降,IndexError 等小眾錯誤在訓練后期實現清零。同時,該方法在 pass@5、pass@10 等指標上的穩定提升(如圖 4),表明其增強了模型代碼生成的泛化能力。



      圖 4:在不同模型規模下,使用 DeepSeek-Coder 在 EvalPlus (HumanEval) 基準上的 pass@5 和 pass@10 表現。

      樣本效率的優化



      圖 5:用于在 MBPP 訓練集上對不同規模的 Qwen2.5-Coder 進行訓練并達到最優性能的偏好數據對需求。

      AP2O-Coder 通過錯誤類型的精準聚焦,顯著提升了訓練數據的利用效率。實驗結果顯示,該方法僅需 4% - 60% 的偏好數據即可達到傳統 DPO 方法的最優性能,在 32B 參數規模的模型上,數據需求量減少更為明顯(如圖 5),這就和班上刷題時,優等生所需刷題量更少類似,為低資源場景下的 LLM 代碼優化提供了可行路徑。

      通用 LLM 適配性



      圖 6:在將通用 LLM(如 Qwen2.5、Qwen3 和 Llama3)適配到代碼領域時,其在 EvalPlus (MBPP) 上的 pass@1 表現。

      AP2O-Coder 不僅適用于代碼專用 LLM,也能有效支持通用 LLM 向代碼領域的適配。在 Qwen3、Llama3 等通用模型的實驗中,經過該方法優化后,模型在 MBPP 基準上的 pass@1 分數顯著提升,驗證了其跨模型類型的適配能力(如圖 6)。

      四、研究發現與方法特性

      實驗過程中,團隊發現了優化策略與模型規模的適配規律:

      對于Qwen2.5-Coder,小參數模型(≤ 3B)采用「低頻錯誤 -> 高頻錯誤」的優化順序更具優勢,這一策略可避免模型因能力有限而陷入高頻常見錯誤的學習困境,而讓小模型一開始能看到不同種類的錯誤,跳出局部最優;

      大參數模型(≥ 7B)采用「高頻錯誤 -> 低頻錯誤」的順序效果更優,能夠充分發揮其強學習能力,快速實現整體錯誤率的下降。這一發現為不同規模 LLM 的代碼優化提供了針對性參考。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      史詩級崩盤!財務造假+雙重戴帽5天暴跌57%,十幾萬股東淚奔!

      史詩級崩盤!財務造假+雙重戴帽5天暴跌57%,十幾萬股東淚奔!

      股市皆大事
      2026-05-11 10:18:10
      馬云再聊未來房價:180萬的房子,到2030年還能值多少錢?

      馬云再聊未來房價:180萬的房子,到2030年還能值多少錢?

      貓叔東山再起
      2026-05-11 08:35:13
      尷尬!王石公開脫衣秀身材“翻車”,網友:像是一副被榨干的軀體

      尷尬!王石公開脫衣秀身材“翻車”,網友:像是一副被榨干的軀體

      火山詩話
      2026-05-08 21:39:02
      97年和女同事出差,賓館只剩一間房她白我一眼:你敢亂動我就報警

      97年和女同事出差,賓館只剩一間房她白我一眼:你敢亂動我就報警

      千秋文化
      2026-05-08 10:18:54
      局勢惡化,61歲李在明沉痛悼念,韓國被日本激怒,高市捅了馬蜂窩

      局勢惡化,61歲李在明沉痛悼念,韓國被日本激怒,高市捅了馬蜂窩

      鍋鍋愛歷史
      2026-05-11 05:39:50
      尷尬!網紅神褲成審美災難,網友稱市場有需求,有些人恨不得裸奔

      尷尬!網紅神褲成審美災難,網友稱市場有需求,有些人恨不得裸奔

      火山詩話
      2026-05-09 19:50:52
      工資13500元/月(6險2金+雙休)2026年編制單位面向社會公開招收427名工作人員公告!5月11日開始報名!

      工資13500元/月(6險2金+雙休)2026年編制單位面向社會公開招收427名工作人員公告!5月11日開始報名!

      材料科學與工程
      2026-05-11 10:06:00
      保簽失敗!白送簽位!看傻整個NBA!!

      保簽失敗!白送簽位!看傻整個NBA!!

      柚子說球
      2026-05-11 08:27:42
      熔斷!剛剛,全線暴漲!芯片巨頭,繼續猛攻

      熔斷!剛剛,全線暴漲!芯片巨頭,繼續猛攻

      證券時報
      2026-05-11 09:40:12
      天王山來了!文班被驅逐,愛德華茲36+6森林狼114-109逆轉馬刺!

      天王山來了!文班被驅逐,愛德華茲36+6森林狼114-109逆轉馬刺!

      運籌帷幄的籃球
      2026-05-11 11:53:07
      炸裂!漢坦病毒零號地大反轉,荷蘭夫婦冤了,游輪致命疫情藏秘密

      炸裂!漢坦病毒零號地大反轉,荷蘭夫婦冤了,游輪致命疫情藏秘密

      溫讀史
      2026-05-11 10:05:45
      休學門診擠滿了初三學生,北大教培人揭開真相:三條路全被堵死,他們無處可逃

      休學門診擠滿了初三學生,北大教培人揭開真相:三條路全被堵死,他們無處可逃

      三言四拍
      2026-05-10 10:34:00
      熔斷!韓國股市大漲!SK海力士漲超10%

      熔斷!韓國股市大漲!SK海力士漲超10%

      證券時報e公司
      2026-05-11 09:38:06
      李嘉誠再談及未來房價:100萬的房子,到2030年還能值多少錢?

      李嘉誠再談及未來房價:100萬的房子,到2030年還能值多少錢?

      社會日日鮮
      2026-05-11 04:52:07
      NBA臉都不要了!強行拖入天王山:湖人看著眼紅!

      NBA臉都不要了!強行拖入天王山:湖人看著眼紅!

      運籌帷幄的籃球
      2026-05-11 11:50:05
      特朗普:美方一直在監控伊朗埋在廢墟下的濃縮鈾

      特朗普:美方一直在監控伊朗埋在廢墟下的濃縮鈾

      中國網
      2026-05-11 09:28:04
      奇才會選迪班薩為狀元? 從球隊需求看2026年選秀前三甲怎么排?

      奇才會選迪班薩為狀元? 從球隊需求看2026年選秀前三甲怎么排?

      仰臥撐FTUer
      2026-05-11 09:18:06
      活久見!新疆一景區提示再登熱搜:花園有毒蛇,醫院距此400公里

      活久見!新疆一景區提示再登熱搜:花園有毒蛇,醫院距此400公里

      火山詩話
      2026-05-09 08:27:01
      先訪日再訪華?美國老套路被看穿,中方回應硬氣到底

      先訪日再訪華?美國老套路被看穿,中方回應硬氣到底

      安珈使者啊
      2026-05-10 09:34:13
      余額不足門卻照常彈開!浙江一男子發現付款漏洞后,與同伴深夜瘋狂“零元購”,法院:犯盜竊罪判刑六個月,緩刑一年

      余額不足門卻照常彈開!浙江一男子發現付款漏洞后,與同伴深夜瘋狂“零元購”,法院:犯盜竊罪判刑六個月,緩刑一年

      臺州交通廣播
      2026-05-10 06:39:27
      2026-05-11 12:28:50
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12965文章數 142648關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      特朗普時隔9年再度訪華 今年特朗普還贊嘆中國儀仗隊

      頭條要聞

      特朗普時隔9年再度訪華 今年特朗普還贊嘆中國儀仗隊

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      謝霆鋒沒想到,王菲靠張藝謀重返巔峰

      財經要聞

      "手搓汽車"曝光:偽造證件、電池以舊代新

      汽車要聞

      全球化成國內車企未來勝負手,誰是出海最強"水手"?

      態度原創

      旅游
      藝術
      時尚
      本地
      房產

      旅游要聞

      河南洛陽欒川重渡溝景區,百米巨型瀑布被噴上油漆:瀑布暫停開放

      藝術要聞

      2026中央美術學院博士生畢業作品選

      輕松拿捏又甜又酷的造型,試試這些輕熟穿搭,溫柔有女人味兒

      本地新聞

      用蘇繡的方式,打開江西婺源

      房產要聞

      低價甩賣!海口這個地標商業,無人接盤!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 在线a人片免费观看高清| 超碰人人超碰| 欧美一品道| 国产成人夜色高潮福利影视| 精品一区二区三区国产馆| 美女又黄又免费的视频| 亚洲欧美日韩一区在线观看| 国产毛片精品av一区二区| 麻豆一区二区三区精品视频| 日韩色美女| 国产91九色在线播放| 日韩精品亚洲人成在线观看| 麻豆国产va免费精品高清在线| 欧美成人精品三级在线观看| 国产精品男人的天堂| 亚洲av无码成人精品区一区| 亚洲日本乱码在线观看| 色九九视频| 亚洲另类丝袜综合网| 波多野吉衣一区二区| 78色淫网站女女免费| 亚洲综合色区在线播放2019| 在线观看免费人成视频国产| 国产自在线拍| 国产精品99久久久久久www| 男女性高爱潮免费网站| 欧美日本一道高清免费3区 | 国产制服丝袜在线视频观看| 无码日韩精品一区二区三区免费| 永久免费的啪啪免费网址| 中文字幕在线观看| 啊啊舔穴午夜免费视频| 国产v综合v亚洲欧美大天堂| 亚洲高清在线观看免费视频| 免费不卡视频| 色94色欧美sute亚洲线路一| 国产成人精品综合久久久| 毛片国产精品完整版| 蜜臀久久99精品久久久久久小说| 14萝自慰专用网站| 真实单亲乱l仑对白视频|