![]()
這項由香港大學(xué)計算與數(shù)據(jù)科學(xué)學(xué)院、字節(jié)跳動Seed團(tuán)隊、深圳環(huán)灣區(qū)具身AI與計算機(jī)視覺研究中心以及香港中文大學(xué)聯(lián)合完成的研究,于2026年4月30日以預(yù)印本形式發(fā)布在arXiv平臺,論文編號為arXiv:2604.27505v1。感興趣的讀者可以通過這個編號直接檢索原文。
一、"圖片改壞了也不自知"——AI圖像編輯面臨的核心困境
每次你用手機(jī)修圖軟件說"把背景換成海邊",軟件不僅把背景換了,還順手把你的臉色也調(diào)成了沙灘黃,這種令人哭笑不得的經(jīng)歷,其實折射出一個深層的技術(shù)難題:AI怎么判斷自己改得好不好?
在當(dāng)今的AI世界里,文字生成圖片(Text-to-Image)已經(jīng)相當(dāng)成熟。研究者們有一套叫做"人類反饋強(qiáng)化學(xué)習(xí)"(RLHF)的訓(xùn)練方法,簡單說就是讓AI根據(jù)人類的喜好進(jìn)行獎懲式學(xué)習(xí)——做得好就加分,做得差就扣分。這套機(jī)制讓文生圖AI越來越懂得怎樣討人喜歡。
然而圖像編輯這件事,比憑空畫一張圖要復(fù)雜得多。編輯一張圖不僅要求AI"畫出指令要求的內(nèi)容",還要求它"保留不該動的地方",同時還得"整體看起來自然不別扭"。這三個要求同時滿足,難度遠(yuǎn)超簡單的圖片生成。
更糟糕的是,現(xiàn)有的AI圖像編輯系統(tǒng)缺乏一個靠譜的"審查員"。大多數(shù)系統(tǒng)要么用一個通用的AI打一個總分,就好比讓一個不懂音樂的人給交響樂演奏打分——他可能只會說"聽起來挺響亮的",卻完全無法區(qū)分哪個樂手跑調(diào)了。這種籠統(tǒng)的評分方式,導(dǎo)致AI拿到的反饋信號模糊不清,自然也就學(xué)不到真正有價值的東西。
面對這個困境,來自港大和字節(jié)跳動的研究團(tuán)隊提出了一個核心洞見:與其用一個只會打總分的裁判,不如培養(yǎng)一個會"逐條對賬"的核查員。他們將這套系統(tǒng)命名為Edit-R1,其中最關(guān)鍵的組件叫做"推理獎勵模型"(Reasoning Reward Model,簡稱RRM)。
二、從"打分員"到"核查員"——Edit-R1的核心思路
Edit-R1的核心哲學(xué),可以用一個生活場景來理解:裝修驗收。
當(dāng)你的新房裝修完成,一個不靠譜的驗收員可能只是站在門口看了一眼說"感覺還不錯,給85分"。但一個專業(yè)的驗收員會拿著清單,逐項檢查:墻面有沒有開裂?插座位置對不對?水管壓力達(dá)標(biāo)了嗎?地板鋪設(shè)是否平整?每一項都有明確的判斷標(biāo)準(zhǔn),最終的綜合評價建立在每個細(xì)節(jié)都核查過的基礎(chǔ)上。
Edit-R1要打造的,正是這樣一個"專業(yè)驗收員"。具體來說,當(dāng)AI編輯完一張圖,這個驗收員會先把編輯指令拆解成若干條具體原則,然后逐條比對編輯后的圖片,最后把所有單項結(jié)果匯總成一個有依據(jù)的綜合得分。
這種方式被研究團(tuán)隊稱為"鏈?zhǔn)剿伎?(Chain-of-Thought,簡稱CoT)驗證。鏈?zhǔn)剿伎疾⒉皇鞘裁瓷衩丶夹g(shù),本質(zhì)上就是讓AI在給出結(jié)論之前,先把思考過程一步步寫出來,就像數(shù)學(xué)考試要求寫解題過程一樣。這樣做的好處是,AI給出的每個判斷都有跡可循,而不是從黑箱里突然蹦出一個數(shù)字。
這套驗證體系把每次圖像編輯分解為三類原則:第一類是"保留"原則,即哪些東西應(yīng)該保持原樣,比如人物的面部特征、背景中的特定元素;第二類是"執(zhí)行"原則,即編輯指令要求改變的內(nèi)容是否確實完成了,比如顏色是否變了、風(fēng)格是否轉(zhuǎn)換了;第三類是"質(zhì)量"原則,即編輯后的圖片整體視覺效果是否自然、有沒有出現(xiàn)奇怪的瑕疵。
三、兩階段訓(xùn)練:先"模仿高手",再"自我打磨"
知道了要做什么,接下來的問題是怎么訓(xùn)練出這樣一個核查員。研究團(tuán)隊設(shè)計了一套兩階段的訓(xùn)練流程,第一階段打好基礎(chǔ),第二階段精益求精。
第一階段叫做"冷啟動監(jiān)督微調(diào)"(Cold-Start SFT)。顧名思義,就像汽車在冬天需要先預(yù)熱才能順暢行駛,AI也需要一個冷啟動過程。研究團(tuán)隊首先準(zhǔn)備了一個規(guī)模龐大的訓(xùn)練數(shù)據(jù)集——從公開的圖像編輯基準(zhǔn)數(shù)據(jù)集中精選了20萬個樣本。這20萬個樣本被分成兩部分:前10萬個是隨機(jī)抽取的,代表各種常見的編輯任務(wù);后10萬個是專門篩選出來的"硬核"案例,這些案例往往需要多步驟的視覺修改、精細(xì)的細(xì)節(jié)處理,或者需要理解隱含的語義信息,總之就是那些容易讓AI犯錯的棘手情況。
為了生成訓(xùn)練數(shù)據(jù),研究團(tuán)隊調(diào)用了多個圖像編輯模型(包括Flux-Kontext、Bagel、SeedEdit3.0等)對這些樣本進(jìn)行編輯,生成了約200萬個"四元組"數(shù)據(jù),每個四元組包含原始圖片、編輯指令、分解后的原則集合,以及一張編輯后的圖片。接下來,他們用多個大型視覺語言模型對這些四元組進(jìn)行"鏈?zhǔn)剿伎?打分,通過改變提示詞、調(diào)整采樣溫度、使用不同的AI變體等方式,為每個四元組生成多個不同的"思考+評分"候選版本。
關(guān)鍵的一步在于如何篩選出質(zhì)量最高的訓(xùn)練樣本。研究團(tuán)隊引入了另一個AI充當(dāng)"質(zhì)量控制官"——由SeedVLM-1.5擔(dān)任,對每個候選的推理鏈條進(jìn)行獨立驗證,計算出每條推理鏈對各個原則的判斷準(zhǔn)確率,然后選取準(zhǔn)確率最高的那個版本作為最終的訓(xùn)練數(shù)據(jù)。這個過程就好比組織一次作文競賽,多位學(xué)生針對同一道題寫解題過程,然后由老師批改,選出邏輯最嚴(yán)密、答案最準(zhǔn)確的那篇作為范文供其他人學(xué)習(xí)。
經(jīng)過第一階段訓(xùn)練的模型已經(jīng)具備了相當(dāng)不錯的推理和評分能力,但研究團(tuán)隊發(fā)現(xiàn)它還有明顯的局限性:有時候會產(chǎn)生"幻覺"——比如明明一個物體只是略微移動了一點點,它卻聲稱指令已經(jīng)完全完成;有時候又會過于主觀,判斷結(jié)果與人類的真實偏好存在偏差。
于是第二階段登場了,這就是研究團(tuán)隊提出的全新算法——"群體對比偏好優(yōu)化"(Group Contrastive Preference Optimization,簡稱GCPO)。
四、GCPO:用"擂臺賽積分制"來訓(xùn)練AI的審美觀
GCPO的設(shè)計思路,可以用一個體育賽事來理解——不妨把它想象成一場乒乓球循環(huán)賽的積分制度。
在傳統(tǒng)的AI訓(xùn)練中,人類標(biāo)注員會給出兩張圖片,說"這張比那張好"(A>B)。這種"一對一比較"的數(shù)據(jù)很常見,但它有一個內(nèi)在的麻煩:這個核查員AI本身是一個"按步驟思考然后給出評分"的系統(tǒng),每次評分都會帶有一定的隨機(jī)性,同一張圖片兩次打分可能稍有不同。如何把這種"每次打分結(jié)果不完全一樣"的特性,與人類提供的"A比B好"這種確定性判斷協(xié)調(diào)起來?這是一個技術(shù)難題。
GCPO的解法是:對每張圖片進(jìn)行多次獨立打分,然后通過"跨組競爭"來計算每次打分的獎勵信號。
具體操作是這樣的:研究團(tuán)隊準(zhǔn)備了約1萬組由人工標(biāo)注的偏好對(即人類判斷哪張編輯得更好)。對于每一對圖片,讓核查員AI分別對兩張圖片各生成N個打分結(jié)果。然后進(jìn)行一場"循環(huán)賽":把"更好"那張圖的每一個打分結(jié)果,都和"更差"那張圖的每一個打分結(jié)果進(jìn)行比較,統(tǒng)計"更好"那張圖的打分比"更差"那張圖高的比例,這個比例就是這次打分的"勝率獎勵"。對稱地,"更差"那張圖的每次打分能比"更好"那張圖低的比例,就是它的"敗率獎勵"。
有了這些獎勵數(shù)值之后,再在各自的打分組內(nèi)部計算"相對表現(xiàn)"——比如在對"更好"圖片的N次打分中,某次打分如果高于平均水平,就給正向激勵,低于平均水平就給負(fù)向抑制。這個"組內(nèi)相對表現(xiàn)"就是所謂的"優(yōu)勢值"(Advantage)。
這套機(jī)制的精妙之處在于,它巧妙地將"哪張圖比較好"的人類判斷,轉(zhuǎn)化成了對AI核查員自身推理過程的直接訓(xùn)練信號,同時通過多次采樣平均掉了單次打分的隨機(jī)噪聲。整個過程只需要1萬組人類標(biāo)注數(shù)據(jù),還不到第一階段訓(xùn)練數(shù)據(jù)量的1%,卻能帶來顯著的性能提升。
從訓(xùn)練過程的曲線來看,經(jīng)過GCPO訓(xùn)練的核查員AI會逐漸養(yǎng)成一個有趣的習(xí)慣:對于正確的判斷,它會生成更長的推理鏈條,把證據(jù)分析得更仔細(xì);這從某種意義上說明AI學(xué)會了"謹(jǐn)慎"——不輕易下結(jié)論,而是把每個細(xì)節(jié)都想清楚再給分。
五、把"核查員"變成"教練"——用獎勵模型來提升編輯模型
有了一個靠譜的核查員之后,第二個大問題隨之而來:怎么用它來提升負(fù)責(zé)編輯圖片的AI?
這里有一個技術(shù)上的難點:傳統(tǒng)的某些訓(xùn)練方法(如REFL)要求獎勵模型的打分過程對訓(xùn)練過程"透明可微",就好比教練不僅要告訴運動員"你跳高沒跳過去",還要能精確指出"你起跳時左腳用力角度差了2度"——需要能夠精確計算影響因子。然而Edit-RRM是一個"先思考再打分"的系統(tǒng),其推理過程是通過逐字生成文本來實現(xiàn)的,這個過程在數(shù)學(xué)上是不可微分的,就像你沒法對"寫日記"這個過程求導(dǎo)數(shù)一樣。
研究團(tuán)隊因此采用了一種叫做GRPO(Group Relative Policy Optimization,群體相對策略優(yōu)化)的強(qiáng)化學(xué)習(xí)算法,這套方法不需要獎勵信號可微,只需要它能輸出一個數(shù)字就夠了。
訓(xùn)練過程是這樣運作的:編輯模型在面對一個圖像編輯任務(wù)時,會同時生成一批不同的編輯結(jié)果(研究中設(shè)置為24張)。核查員對每張結(jié)果進(jìn)行評分,然后計算每張結(jié)果的相對排名——在這批24張圖中,某張圖的分?jǐn)?shù)高于平均就得到正向激勵,低于平均就受到負(fù)向約束。與此同時,還設(shè)置了一個KL散度懲罰項,防止編輯模型的輸出風(fēng)格變化過大,就好比給運動員訓(xùn)練時設(shè)置了一個"不能偏離基本姿勢太遠(yuǎn)"的約束,避免過度優(yōu)化反而走形。
研究團(tuán)隊將Edit-R1應(yīng)用到了兩個當(dāng)前最先進(jìn)的開源圖像編輯模型上:FLUX.Kontext和Qwen-Image-Edit,以此驗證這套框架的實際效果。
六、實驗結(jié)果:核查員越嚴(yán)格,編輯效果越好
研究團(tuán)隊從兩個角度評估了Edit-R1的效果:一是核查員本身的準(zhǔn)確性,二是被核查員訓(xùn)練過的編輯模型的實際水平。
在核查員的評估上,研究團(tuán)隊構(gòu)建了一個內(nèi)部測試基準(zhǔn),包含5000個經(jīng)過人工標(biāo)注偏好的圖像編輯對。測試結(jié)果顯示,完整訓(xùn)練出來的7B參數(shù)(70億參數(shù))版本核查員達(dá)到了82.22%的準(zhǔn)確率,這意味著在100次人類評判中,這個核查員能與人類意見吻合超過82次。這個成績明顯超過了Seed-1.5-VL(79.3%)和Seed-1.6-VL(77.2%)這兩個強(qiáng)大的商用API——值得注意的是,這兩個都是字節(jié)跳動自家的強(qiáng)力視覺語言模型,能超過它們實屬不易。
在公開的獨立測試基準(zhǔn)EditRewardBench上,這種優(yōu)勢依然存在。競品EditScore-7B的準(zhǔn)確率是65.9%(即便使用推理擴(kuò)展技術(shù)也只能達(dá)到72.7%),而Edit-RRM僅憑第一階段的監(jiān)督微調(diào)就達(dá)到了73.3%,加入GCPO后進(jìn)一步提升到78.2%。由于EditRewardBench是獨立構(gòu)建的,與研究團(tuán)隊的內(nèi)部流程完全不相關(guān),這個結(jié)果可以有效排除"內(nèi)部測試偏向"的質(zhì)疑。
研究團(tuán)隊還發(fā)現(xiàn)了一個有意義的規(guī)律:核查員規(guī)模越大,效果越好——3B參數(shù)版本和7B參數(shù)版本之間存在明顯的性能差距,展示出清晰的"參數(shù)規(guī)模擴(kuò)展效益"。
在訓(xùn)練動態(tài)上有一個反直覺的現(xiàn)象值得一提:經(jīng)過GCPO訓(xùn)練的核查員(RL-RRM)在給編輯模型訓(xùn)練時,提供的"訓(xùn)練獎勵"反而比未經(jīng)GCPO訓(xùn)練的版本(SFT-RRM)更低,但"測試獎勵"卻更高。這說明GCPO把核查員訓(xùn)練得更加嚴(yán)格,它不會隨隨便便給高分——正是這種嚴(yán)格反而倒逼編輯模型做得更好。
在對編輯模型的提升效果上,以FLUX.Kontext為例,經(jīng)過Edit-R1框架訓(xùn)練后,其綜合得分(Overall Score)從5.77提升到了6.24,語義一致性得分(Semantic Consistency)從6.27躍升至6.86。在最具挑戰(zhàn)性的"動作變化"類別(如讓靜止的貓變成奔跑狀態(tài))上,相對提升幅度達(dá)到了15.2%(從4.01提升到4.62)。在人工評測中,使用了Edit-R1框架訓(xùn)練的FLUX.Kontext的GSB得分達(dá)到了+23.2,意味著人類評審認(rèn)為它明顯優(yōu)于原始版本。
對于已經(jīng)相當(dāng)強(qiáng)大的Qwen-Edit模型,整體提升幅度較小(綜合得分從7.45提升到7.50),這主要是因為該模型本身已經(jīng)受益于大量的Best-of-N采樣優(yōu)化。但即便如此,在"動作變化"這類難度極高的任務(wù)上,Edit-R1依然帶來了顯著改善。
定性結(jié)果同樣令人印象深刻。在"顏色更改"任務(wù)中,Edit-R1能夠精確地只修改目標(biāo)物體的顏色,而不會引發(fā)全圖的色調(diào)變化;在"物體添加/刪除"任務(wù)中,基線模型往往無法準(zhǔn)確理解指令,而Edit-R1訓(xùn)練過的模型能夠正確執(zhí)行;在"材質(zhì)替換"(比如把小狗變成粘土質(zhì)感)和"動作變更"(比如讓飛機(jī)處于起飛狀態(tài))等復(fù)雜任務(wù)上,改進(jìn)效果尤為明顯。
七、一個具體案例:RRM如何抓住"帽子顏色走偏"的錯誤
研究團(tuán)隊在論文中展示了一個生動的失敗矯正案例,可以直觀地理解Edit-R1整個系統(tǒng)的運作邏輯。
任務(wù)是:給一個卡通小女孩的短袖上衣改成紅色,同時保留她的藍(lán)色帽子、雙麻花辮、淺棕色下裝以及背景中的綠色葉片和石頭。
在僅使用第一階段監(jiān)督微調(diào)的SFT模型輸出中,有一張"失敗樣本":上衣確實變成了紅色,但帽子也跟著變成了紅色——屬于典型的"屬性擴(kuò)散"錯誤,改了不該改的東西。
核查員AI(RRM)對這張失敗圖片逐條進(jìn)行了原則核查,在檢查"帽子是否保留了原來的淺藍(lán)色風(fēng)格"這一條時,給出了0分(未通過),并在推理過程中明確指出了這個問題。這個精確的扣分信號通過強(qiáng)化學(xué)習(xí)傳導(dǎo)給了編輯模型,使其在后續(xù)訓(xùn)練中學(xué)會了"只改上衣顏色,不影響帽子顏色"。
經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練后,該模型的"成功樣本"完美地完成了任務(wù):上衣變紅,帽子依然是藍(lán)色,其他所有細(xì)節(jié)都保持原樣。RRM對這張圖片的每一條原則都給出了1分(通過),最終得出滿意的綜合評價。
這個案例清晰地展示了從籠統(tǒng)打分到逐條核查的范式轉(zhuǎn)變帶來的實際價值——正是那一條針對帽子顏色的精確扣分,讓AI學(xué)會了區(qū)分"該改的"和"不該改的"。
說到底,Edit-R1做的事情,就是給AI圖像編輯系統(tǒng)安裝了一套"逐條對賬"的質(zhì)檢系統(tǒng),而不是簡單地"看一眼打個分"。這套質(zhì)檢系統(tǒng)不僅自己越來越準(zhǔn)(超過了商用大模型API的判斷準(zhǔn)確率),還能有效地督促負(fù)責(zé)編輯圖片的AI做得更好。
這對于普通用戶意味著什么?短期來看,受益于這類研究,圖像編輯軟件會變得更聽話——你讓它只改顏色,它就只改顏色;你讓它換背景,它就不會順手動你的臉。長期來看,這種"把大任務(wù)拆成小任務(wù)逐條核查"的思路,可能會成為讓AI在各類復(fù)雜任務(wù)中做得更精確的通用方法論。
值得思考的是,當(dāng)AI擁有了越來越精準(zhǔn)的自我評判能力,我們是否需要重新考慮"什么叫做一張編輯得好的照片"?畢竟,AI的判斷標(biāo)準(zhǔn)來自于人類的標(biāo)注數(shù)據(jù),而人類的審美本身也在不斷變化。感興趣的讀者可以通過arXiv上的論文編號2604.27505進(jìn)一步探索這個研究的技術(shù)細(xì)節(jié)。
Q&A
Q1:Edit-RRM和普通打分AI有什么區(qū)別?
A:普通打分AI通常只看一眼圖片就輸出一個總分,無法說明哪里好哪里不好。Edit-RRM則會先把編輯指令拆解成若干條具體原則,比如"顏色是否改變了"、"背景是否保留了"、"整體質(zhì)量是否自然",逐條核查后再綜合出最終分?jǐn)?shù),這樣每個判斷都有明確依據(jù),評分結(jié)果也更接近人類的真實判斷。
Q2:GCPO算法為什么只需要1萬條人類標(biāo)注數(shù)據(jù)就能有效果?
A:GCPO的核心是對每張圖片生成多次獨立評分,然后通過"跨組比較"把人類的偏好判斷(A比B好)轉(zhuǎn)化成具體的獎勵信號。多次采樣平均掉了單次打分的隨機(jī)性,使得每條人類標(biāo)注數(shù)據(jù)能提供更豐富的訓(xùn)練信號。因此哪怕只有1萬條數(shù)據(jù),也能有效精準(zhǔn)地調(diào)整模型的判斷偏好。
Q3:Edit-R1框架可以用在哪些圖像編輯軟件上?
A:Edit-R1是一個通用的訓(xùn)練框架,研究團(tuán)隊已經(jīng)成功將其應(yīng)用于FLUX.Kontext和Qwen-Image-Edit兩個開源圖像編輯模型,均取得了明顯改進(jìn)。理論上,任何基于流匹配或擴(kuò)散模型的圖像編輯系統(tǒng)都可以接入這套框架,只要其生成過程支持GRPO算法所需的采樣和優(yōu)化操作即可。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.