<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>

<p id="tp1vn"></p>

<sub id="tp1vn"><p id="tp1vn"></p></sub>

<u id="tp1vn"><rp id="tp1vn"></rp></u>

<meter id="tp1vn"></meter>

<wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>

日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao

<meter id="yywj9"><strike id="yywj9"></strike></meter>

<rt id="yywj9"></rt>

<samp id="yywj9"></samp>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

四次DPO訓練失敗實錄：從-9.15pp到+0.61pp的工程復盤

2026-05-08 11:11:10　來源: 字節漫游指南

北京舉報

0

分享至

36小時內，四次DPO訓練迭代，HumanEval pass@1從基準87.20%一路跌到78.05%，再爬回87.81%。這不是模型的問題，是數據管道的鍋。

團隊在Qwen2.5-Coder-7B-Instruct上跑直接偏好優化（DPO），目標很簡單：超過基線。結果前三次全敗——-9.15pp、-1.22pp、兩次NO-GO。第四次才摸到+0.61pp的正向收益。

每次失敗都暴露同一個根源：自動生成管道的質量門有盲區。這些bug并不稀奇，門控也不幼稚，但組合起來就是漏。

他們的管道邏輯很標準：生成Python代碼樣本，配上合成的pytest報錯軌跡，過四層認證——語法AST可解析、執行無異常、通過隱藏測試、與參考解行為一致。全過則標記certified=1，作為DPO的chosen樣本，再配合同領域的broken實現（rejected樣本），用Unsloth+LoRA微調。

第一輪迭代直接翻車。團隊用2,000對樣本訓練，其中96%是NameError修復，約3% AssertionError。HumanEval暴跌9.15個百分點。

失敗歸因很具體：ASSERTION_FAIL占了67%的回歸。模型從AssertionError處理程序學錯了——"assert失敗就刪掉"被當成合法修復策略。這個模式泄露到HumanEval，模型開始寫那種讓斷言永遠通過的解法，直接破壞測試框架。

技術上看，AST變換沒錯：assert X == Y → pass是合法轉換。語義上卻是災難，把錯誤的教學信號喂給了模型。有人提前預警過這個風險，但團隊還是跑了——因為之前在小模型上實驗時，AssertionError類別曾是最大收益來源。模型不同，數據構成不同，結果完全不同。

第二輪轉向嚴格過濾：只用通過四層認證門的樣本，篩出2,439條候選。領域分布93%蒙特卡洛模擬，7%其他（FFT、異步、Agentic等）。HumanEval微跌1.22pp，MBPP持平。自動管道判定"無副作用"，因為MBPP是副作用金絲雀。但HumanEval確實退了，說明門控有漏網之魚。

第三輪和第四輪繼續迭代，最終修復了樣本生成中的系統性偏差。+0.61pp的微弱正收益背后，是重新設計的驗證層和更嚴格的領域平衡策略。

核心教訓：chosen樣本的質量不在于語法正確，而在于變換是否教會了正確行為。DPO的數據管道比想象更脆弱，大多數團隊在自動駕駛生成的數據上跑DPO時，可能都帶著同樣的門控盲區。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

生成式推理再排序，可能會是LLM4RecSys的新突破口嗎？

機器之心Pro 2026-04-08 11:52:53
0 跟貼 0
商湯最強Lite模型來了，Token消耗直降60%，限時免費調用

智東西 2026-05-08 21:25:23
0 跟貼 0

GPT-Realtime-2上線！全球AI巨頭加碼，語音一夜成了AI圈香餑餑

雷科技 2026-05-08 22:00:10
0 跟貼 0

殲-35"0001編號"戰機亮相噴涂英文縮寫或量產出口

央視新聞客戶端 2026-05-08 08:00:26
8725 跟貼 8725
窮到砍樣本，卻砍到大動脈！Nature 子刊力證：經費、樣本不足也能做轉錄組

生物學霸 2026-04-22 17:18:12
0 跟貼 0

我是來投資的，又不是來學技術的！

包子同學呀 2026-05-07 11:10:00
0 跟貼 0

Elixir遠程崗薪資報告：小眾語言的定價困境

碼上閑敘 2026-05-04 11:48:31
0 跟貼 0
女子拿愛心冰箱的免費水洗腳，下一秒“現世報”滑倒跪地，網友：善有善報，惡有惡報

BRTV新聞 2026-05-08 21:12:25
14 跟貼 14

塑料PP中空板選購挑選靠譜源頭廠家的實用方法

中空板老張 2026-05-07 00:16:46
0 跟貼 0
印度富人區新科技，這高超的發明技術，我們至少領先他們十幾年

嗡嗡生活說 2026-05-07 08:57:38
0 跟貼 0
圍剿張雪機車？錢江摩托聲明：從未向任何供應鏈企業下達“封殺令”

看看新聞Knews 2026-05-08 11:34:33
6141 跟貼 6141
就這技術可以說挑戰全網

大哥搞笑配音 2026-05-06 15:44:14
1 跟貼 1
3D打印戶外徒步軌跡冰箱貼，遠看平平無奇，取下才發現是立體造型，網友：這個真的太想入手了

都市觀察 2026-05-07 13:54:07
0 跟貼 0
不問配置不聊價格，浙江一女子開口就要買5臺最新款iPhone，老板不但不賣，反手報了警

環球網資訊 2026-05-08 07:38:20
1467 跟貼 1467
一上強度就輸球，湖人一招被拆解，策略不能用了，亮點只剩一個

體壇大辣椒 2026-05-08 13:14:01
1 跟貼 1
茶顏悅色，裝不下去了

中國新聞周刊 2026-05-07 22:15:57
299 跟貼 299
上海迪士尼能通話錄音游客不能錄，否則無法提供服務！游客：憑什么迪士尼能錄我不能

瀟湘晨報 2026-05-07 16:14:22
632 跟貼 632
第一場輸10分，騎士4件事沒有做對，一策略要換了

體壇大辣椒 2026-05-06 10:17:45
23 跟貼 23
賴清德搭機返臺，航線軌跡暴露1個問題，4架臺空軍F16V將護航伴飛

小宋聊軍工 2026-05-07 10:55:05
0 跟貼 0
不用學AI了！圈內公開的秘密：頂級玩家已開始讓AI用AI

新智元 2026-05-08 15:07:22
0 跟貼 0
俄羅斯宣布“勝利日”莫斯科等地暫時斷網！近一年來俄固定電話需求飆升

紅星新聞 2026-05-08 12:51:17
3498 跟貼 3498
“排隊3小時，打卡1分鐘”，多景區迎“潑天流量”

澎湃新聞 2026-05-06 00:04:10
3855 跟貼 3855
解放臺灣很可能會采用解放天津時的策略

夜叔 2026-05-07 03:39:28
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
強化學習實戰訓練營①：從零入門，一節課搞懂 RL 核心邏輯！強化學習入門基礎與核心概念詳解！

盧菁老師 2026-05-06 09:13:22
0 跟貼 0
DPO「只看總分不看細節」？TI-DPO用Token重要性重塑大模型對齊

機器之心Pro 2026-02-11 13:45:57
0 跟貼 0
NBA季后賽｜湖人再度不敵雷霆，賽后全隊找裁判理論

北青網-北京青年報 2026-05-08 15:47:14
168 跟貼 168
30條中日航線，4月取消全部航班

都市快報橙柿互動 2026-05-08 13:42:34
1535 跟貼 1535
美軍換6.8毫米彈藥背后邏輯！

老周說趣 2026-05-08 16:13:33
0 跟貼 0
小狗田間空地曬太陽，靜靜觀察甲蟲翻身

學申論的談妹 2026-05-08 22:45:00
18 跟貼 18
上海官宣：將承辦2028年奧運會資格系列賽

現代快報 2026-05-08 09:21:24
295 跟貼 295
江西高校本科專業大調整：管理、藝術、外語類批量撤銷

第一財經資訊 2026-05-08 19:25:23
88 跟貼 88
南京、東營晉級：人均GDP超20萬元的城市增至11個

澎湃新聞 2026-05-08 10:54:27
67 跟貼 67
1.47萬人圍觀、溢價率近920%！鐘薛高508件無形資產以2110萬元成交

紅星資本局 2026-05-08 17:42:08
100 跟貼 100
PJ·塔克個人社媒宣布退役結束14年NBA生涯

北青網-北京青年報 2026-05-08 20:22:12
35 跟貼 35
收評：滬指收綠深成指跌0.5% 創業板指跌0.96%

財聯社 2026-05-08 15:08:48
185 跟貼 185
阿聯酋企業須在6月30日前完成員工本地化，否則將受罰

秘密即將揭曉 2026-05-08 22:15:52
0 跟貼 0
工信部批復6G技術試驗頻率

新京報 2026-05-08 08:48:06
412 跟貼 412
飛機乘客捕捉登月火箭軌跡，時隔半世紀人類重返月球

裝甲鏟史官 2026-04-02 11:34:41
0 跟貼 0
新規！電梯檢測：人均檢測臺量≤1200臺/年！6月1日起實施！

特種設備安全科普 2026-05-08 22:07:23
0 跟貼 0

斯洛特：賽季收官三連勝也不會平息批評，我們需要長期的表現

斯洛特：賽季收官三連勝也不會平息批評，我們需要長期的表現

懂球帝

2026-05-09 00:16:12

歐盟稱中國高風險，中方八字回應，特朗普發出通牒：不履行就加稅

歐盟稱中國高風險，中方八字回應，特朗普發出通牒：不履行就加稅

軒逸阿II

2026-05-09 00:32:57

胖東來商場衛生間一家長抱著孩子在洗手池小便，工作人員：事發時該區域暫無人員在崗，洗手池及周邊區域已進行專業消殺，水龍頭也已更換

胖東來商場衛生間一家長抱著孩子在洗手池小便，工作人員：事發時該區域暫無人員在崗，洗手池及周邊區域已進行專業消殺，水龍頭也已更換

揚子晚報

2026-05-08 14:41:21

100股今日獲機構買入評級 12股上漲空間超20%

100股今日獲機構買入評級 12股上漲空間超20%

證券時報

2026-05-08 17:52:29

突發利空！亞太股市全線下跌，國產算力突發大跌，商業航天卷土重來？

突發利空！亞太股市全線下跌，國產算力突發大跌，商業航天卷土重來？

看財經show

2026-05-08 17:19:24

富商馬清鏗情婦喊話原配妻子，恭喜對方解脫，原配至今沉默沒離婚

富商馬清鏗情婦喊話原配妻子，恭喜對方解脫，原配至今沉默沒離婚

樹娃

2026-05-06 09:19:57

追蹤24年，科學家發現一個人的“生物鐘”走得越快，壽命就越短

追蹤24年，科學家發現一個人的“生物鐘”走得越快，壽命就越短

混沌錄

2026-05-06 23:43:06

銳評：鄭欽文擊敗布克沙丑陋地贏？又哭了？藥娃退賽是個好消息？

銳評：鄭欽文擊敗布克沙丑陋地贏？又哭了？藥娃退賽是個好消息？

網球之家

2026-05-07 23:04:17

浙江宣傳評世界杯轉播權之爭：與其花費巨資追捧海外賽事，不如投入本土足球

浙江宣傳評世界杯轉播權之爭：與其花費巨資追捧海外賽事，不如投入本土足球

澎湃新聞

2026-05-08 12:24:10

網傳山西大同訂婚強奸案男主出獄后發文：一天刑期未減，因我始終沒有認罪

網傳山西大同訂婚強奸案男主出獄后發文：一天刑期未減，因我始終沒有認罪

互聯網大觀

2026-05-07 18:16:26

只有4國領導人敢去紅場？普京痛苦抉擇，澤連斯基反手放出一招

只有4國領導人敢去紅場？普京痛苦抉擇，澤連斯基反手放出一招

阿離家居

2026-05-08 08:54:34

葉珂終于攤牌！生女兩年無名分，分手真相扯出黃曉明私生活

葉珂終于攤牌！生女兩年無名分，分手真相扯出黃曉明私生活

橙星文娛

2026-05-08 09:06:29

海事情報公司稱有3艘伊朗油輪突破美軍封鎖

海事情報公司稱有3艘伊朗油輪突破美軍封鎖

界面新聞

2026-05-08 18:58:20

日本3-1德國！贏球不可怕，可怕的是賽后張本的這番話，格局很大

日本3-1德國！贏球不可怕，可怕的是賽后張本的這番話，格局很大

劉哥談體育

2026-05-08 13:24:01

iOS 26.5下周正式推送，一口氣上線五大新功能

iOS 26.5下周正式推送，一口氣上線五大新功能

環球網資訊

2026-05-08 10:49:06

一場季前賽就打出身價！女籃一姐重返WNBA，宮魯鳴請放她一馬

一場季前賽就打出身價！女籃一姐重返WNBA，宮魯鳴請放她一馬

弄月公子

2026-05-08 21:04:07

43歲身材還這么“滿”？王心凌的身材到底是怎么保持的？

43歲身材還這么“滿”？王心凌的身材到底是怎么保持的？

馬拉松跑步健身

2026-05-04 19:32:40

屬兔人注意：5月8-11號人在家中坐，事從天上來！是福是禍自己看

屬兔人注意：5月8-11號人在家中坐，事從天上來！是福是禍自己看

匹夫來搞笑

2026-05-08 19:49:28

一艘中國油輪在霍爾木茲海峽附近遇襲？外交部：相關遇襲船只系馬紹爾群島籍，船上有中國籍船員

一艘中國油輪在霍爾木茲海峽附近遇襲？外交部：相關遇襲船只系馬紹爾群島籍，船上有中國籍船員

環球網資訊

2026-05-08 15:40:12

高璐，加盟清華大學

雙一流高校

2026-05-08 00:09:47

字節漫游指南

有態度網友ytd

3436文章數 38關注度

往期回顧全部

科技要聞

SK海力士平均獎金600萬工服成相親神器

頭條要聞

外籍銀行高層在香港豪宅性虐及殺害兩女子內幕解密

頭條要聞

外籍銀行高層在香港豪宅性虐及殺害兩女子內幕解密

體育要聞

他把首勝讓給隊友，然后用一年時間還清賬單

娛樂要聞

古天樂被曝隱婚生子，新娘竟是她

財經要聞

估值3000億 DeepSeek尋求500億元融資

汽車要聞

MG 4X實車亮相將于5月11日開啟盲訂

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

教育

健康

數碼

時尚

藝術要聞

驚艷私房攝影：感受真情與絕美畫面！

教育要聞

摒棄打壓式教育，讓家庭教育走出攀比陰影

干細胞能讓人“返老還童”嗎

數碼要聞

華碩京東重磅新品日，華碩天選7系列游戲本開啟預約

衣服其實沒有必要買很貴，準備這三件基礎款，百搭實用又不挑人

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：一区二区亚洲精品| 久久国产精品福利一区二区三区| 18禁黄污吃奶免费看网站| 国产成人精品三级在线影院| 2020国产微拍精品一区二区| 内射干少妇亚洲69xxx| 东京热人妻丝袜无码AV一二三区观| 伊人av综合| 成人AV免费| 伊人久久大香线蕉av色婷婷色| 国产高清国内精品福利| 国产一区二区无码专区| 国产中文字幕在线精品| 不卡的av在线| 又粗又大又硬又长又爽| AV天堂久久天堂色综合| 亚洲色噜噜网站在线观看| 欧美国产日产一区二区| 国产偷伦| 人妻中出无码中字在线| 国产亚洲精久久久久久无码苍井空 | 久久久午夜精品福利内容| 国产福利片无码区在线观看| av在线中文字幕不卡电影网| 日韩人妻无码一区二区三区久久99| 欧美va亚洲va香蕉在线| 久久精品国产只有精品66| 日本丰满白嫩大屁股ass| 亚洲中文无码线在线观看| 久久精品熟女人妻一区二区三区| 亚洲国产成人久久综合人| 尤物一区| 亚洲人成综合网站7777香蕉| 伊人蕉久中文字幕无码专区| 狠狠色香婷婷久久亚洲精品| 少妇精品无码一区二区免费视频| 色成人亚洲| 日本xxx69| 欧洲美女熟乱av| 国产综合av一区二区三区| 亚洲a在线播放|

<abbr id="odp3m"><listing id="odp3m"><strong id="odp3m"></strong></listing></abbr>

<tr id="odp3m"><fieldset id="odp3m"><nobr id="odp3m"></nobr></fieldset></tr><thead id="odp3m"></thead>