港大與字節(jié)跳動聯(lián)手：讓AI圖像編輯"自我審查"

2026-05-07 20:52:24　來源: 科技行者

北京舉報

分享至

這項由香港大學(xué)計算與數(shù)據(jù)科學(xué)學(xué)院、字節(jié)跳動Seed團(tuán)隊、深圳環(huán)灣區(qū)具身AI與計算機(jī)視覺研究中心以及香港中文大學(xué)聯(lián)合完成的研究，于2026年4月30日以預(yù)印本形式發(fā)布在arXiv平臺，論文編號為arXiv:2604.27505v1。感興趣的讀者可以通過這個編號直接檢索原文。

一、"圖片改壞了也不自知"——AI圖像編輯面臨的核心困境

每次你用手機(jī)修圖軟件說"把背景換成海邊"，軟件不僅把背景換了，還順手把你的臉色也調(diào)成了沙灘黃，這種令人哭笑不得的經(jīng)歷，其實折射出一個深層的技術(shù)難題：AI怎么判斷自己改得好不好？

在當(dāng)今的AI世界里，文字生成圖片（Text-to-Image）已經(jīng)相當(dāng)成熟。研究者們有一套叫做"人類反饋強(qiáng)化學(xué)習(xí)"（RLHF）的訓(xùn)練方法，簡單說就是讓AI根據(jù)人類的喜好進(jìn)行獎懲式學(xué)習(xí)——做得好就加分，做得差就扣分。這套機(jī)制讓文生圖AI越來越懂得怎樣討人喜歡。

然而圖像編輯這件事，比憑空畫一張圖要復(fù)雜得多。編輯一張圖不僅要求AI"畫出指令要求的內(nèi)容"，還要求它"保留不該動的地方"，同時還得"整體看起來自然不別扭"。這三個要求同時滿足，難度遠(yuǎn)超簡單的圖片生成。

更糟糕的是，現(xiàn)有的AI圖像編輯系統(tǒng)缺乏一個靠譜的"審查員"。大多數(shù)系統(tǒng)要么用一個通用的AI打一個總分，就好比讓一個不懂音樂的人給交響樂演奏打分——他可能只會說"聽起來挺響亮的"，卻完全無法區(qū)分哪個樂手跑調(diào)了。這種籠統(tǒng)的評分方式，導(dǎo)致AI拿到的反饋信號模糊不清，自然也就學(xué)不到真正有價值的東西。

面對這個困境，來自港大和字節(jié)跳動的研究團(tuán)隊提出了一個核心洞見：與其用一個只會打總分的裁判，不如培養(yǎng)一個會"逐條對賬"的核查員。他們將這套系統(tǒng)命名為Edit-R1，其中最關(guān)鍵的組件叫做"推理獎勵模型"（Reasoning Reward Model，簡稱RRM）。

二、從"打分員"到"核查員"——Edit-R1的核心思路

Edit-R1的核心哲學(xué)，可以用一個生活場景來理解：裝修驗收。

當(dāng)你的新房裝修完成，一個不靠譜的驗收員可能只是站在門口看了一眼說"感覺還不錯，給85分"。但一個專業(yè)的驗收員會拿著清單，逐項檢查：墻面有沒有開裂？插座位置對不對？水管壓力達(dá)標(biāo)了嗎？地板鋪設(shè)是否平整？每一項都有明確的判斷標(biāo)準(zhǔn)，最終的綜合評價建立在每個細(xì)節(jié)都核查過的基礎(chǔ)上。

Edit-R1要打造的，正是這樣一個"專業(yè)驗收員"。具體來說，當(dāng)AI編輯完一張圖，這個驗收員會先把編輯指令拆解成若干條具體原則，然后逐條比對編輯后的圖片，最后把所有單項結(jié)果匯總成一個有依據(jù)的綜合得分。

這種方式被研究團(tuán)隊稱為"鏈?zhǔn)剿伎?（Chain-of-Thought，簡稱CoT）驗證。鏈?zhǔn)剿伎疾⒉皇鞘裁瓷衩丶夹g(shù)，本質(zhì)上就是讓AI在給出結(jié)論之前，先把思考過程一步步寫出來，就像數(shù)學(xué)考試要求寫解題過程一樣。這樣做的好處是，AI給出的每個判斷都有跡可循，而不是從黑箱里突然蹦出一個數(shù)字。

這套驗證體系把每次圖像編輯分解為三類原則：第一類是"保留"原則，即哪些東西應(yīng)該保持原樣，比如人物的面部特征、背景中的特定元素；第二類是"執(zhí)行"原則，即編輯指令要求改變的內(nèi)容是否確實完成了，比如顏色是否變了、風(fēng)格是否轉(zhuǎn)換了；第三類是"質(zhì)量"原則，即編輯后的圖片整體視覺效果是否自然、有沒有出現(xiàn)奇怪的瑕疵。

三、兩階段訓(xùn)練：先"模仿高手"，再"自我打磨"

知道了要做什么，接下來的問題是怎么訓(xùn)練出這樣一個核查員。研究團(tuán)隊設(shè)計了一套兩階段的訓(xùn)練流程，第一階段打好基礎(chǔ)，第二階段精益求精。

第一階段叫做"冷啟動監(jiān)督微調(diào)"（Cold-Start SFT）。顧名思義，就像汽車在冬天需要先預(yù)熱才能順暢行駛，AI也需要一個冷啟動過程。研究團(tuán)隊首先準(zhǔn)備了一個規(guī)模龐大的訓(xùn)練數(shù)據(jù)集——從公開的圖像編輯基準(zhǔn)數(shù)據(jù)集中精選了20萬個樣本。這20萬個樣本被分成兩部分：前10萬個是隨機(jī)抽取的，代表各種常見的編輯任務(wù)；后10萬個是專門篩選出來的"硬核"案例，這些案例往往需要多步驟的視覺修改、精細(xì)的細(xì)節(jié)處理，或者需要理解隱含的語義信息，總之就是那些容易讓AI犯錯的棘手情況。

為了生成訓(xùn)練數(shù)據(jù)，研究團(tuán)隊調(diào)用了多個圖像編輯模型（包括Flux-Kontext、Bagel、SeedEdit3.0等）對這些樣本進(jìn)行編輯，生成了約200萬個"四元組"數(shù)據(jù)，每個四元組包含原始圖片、編輯指令、分解后的原則集合，以及一張編輯后的圖片。接下來，他們用多個大型視覺語言模型對這些四元組進(jìn)行"鏈?zhǔn)剿伎?打分，通過改變提示詞、調(diào)整采樣溫度、使用不同的AI變體等方式，為每個四元組生成多個不同的"思考+評分"候選版本。

關(guān)鍵的一步在于如何篩選出質(zhì)量最高的訓(xùn)練樣本。研究團(tuán)隊引入了另一個AI充當(dāng)"質(zhì)量控制官"——由SeedVLM-1.5擔(dān)任，對每個候選的推理鏈條進(jìn)行獨立驗證，計算出每條推理鏈對各個原則的判斷準(zhǔn)確率，然后選取準(zhǔn)確率最高的那個版本作為最終的訓(xùn)練數(shù)據(jù)。這個過程就好比組織一次作文競賽，多位學(xué)生針對同一道題寫解題過程，然后由老師批改，選出邏輯最嚴(yán)密、答案最準(zhǔn)確的那篇作為范文供其他人學(xué)習(xí)。

經(jīng)過第一階段訓(xùn)練的模型已經(jīng)具備了相當(dāng)不錯的推理和評分能力，但研究團(tuán)隊發(fā)現(xiàn)它還有明顯的局限性：有時候會產(chǎn)生"幻覺"——比如明明一個物體只是略微移動了一點點，它卻聲稱指令已經(jīng)完全完成；有時候又會過于主觀，判斷結(jié)果與人類的真實偏好存在偏差。

于是第二階段登場了，這就是研究團(tuán)隊提出的全新算法——"群體對比偏好優(yōu)化"（Group Contrastive Preference Optimization，簡稱GCPO）。

四、GCPO：用"擂臺賽積分制"來訓(xùn)練AI的審美觀

GCPO的設(shè)計思路，可以用一個體育賽事來理解——不妨把它想象成一場乒乓球循環(huán)賽的積分制度。

在傳統(tǒng)的AI訓(xùn)練中，人類標(biāo)注員會給出兩張圖片，說"這張比那張好"（A>B）。這種"一對一比較"的數(shù)據(jù)很常見，但它有一個內(nèi)在的麻煩：這個核查員AI本身是一個"按步驟思考然后給出評分"的系統(tǒng)，每次評分都會帶有一定的隨機(jī)性，同一張圖片兩次打分可能稍有不同。如何把這種"每次打分結(jié)果不完全一樣"的特性，與人類提供的"A比B好"這種確定性判斷協(xié)調(diào)起來？這是一個技術(shù)難題。

GCPO的解法是：對每張圖片進(jìn)行多次獨立打分，然后通過"跨組競爭"來計算每次打分的獎勵信號。

具體操作是這樣的：研究團(tuán)隊準(zhǔn)備了約1萬組由人工標(biāo)注的偏好對（即人類判斷哪張編輯得更好）。對于每一對圖片，讓核查員AI分別對兩張圖片各生成N個打分結(jié)果。然后進(jìn)行一場"循環(huán)賽"：把"更好"那張圖的每一個打分結(jié)果，都和"更差"那張圖的每一個打分結(jié)果進(jìn)行比較，統(tǒng)計"更好"那張圖的打分比"更差"那張圖高的比例，這個比例就是這次打分的"勝率獎勵"。對稱地，"更差"那張圖的每次打分能比"更好"那張圖低的比例，就是它的"敗率獎勵"。

有了這些獎勵數(shù)值之后，再在各自的打分組內(nèi)部計算"相對表現(xiàn)"——比如在對"更好"圖片的N次打分中，某次打分如果高于平均水平，就給正向激勵，低于平均水平就給負(fù)向抑制。這個"組內(nèi)相對表現(xiàn)"就是所謂的"優(yōu)勢值"（Advantage）。

這套機(jī)制的精妙之處在于，它巧妙地將"哪張圖比較好"的人類判斷，轉(zhuǎn)化成了對AI核查員自身推理過程的直接訓(xùn)練信號，同時通過多次采樣平均掉了單次打分的隨機(jī)噪聲。整個過程只需要1萬組人類標(biāo)注數(shù)據(jù)，還不到第一階段訓(xùn)練數(shù)據(jù)量的1%，卻能帶來顯著的性能提升。

從訓(xùn)練過程的曲線來看，經(jīng)過GCPO訓(xùn)練的核查員AI會逐漸養(yǎng)成一個有趣的習(xí)慣：對于正確的判斷，它會生成更長的推理鏈條，把證據(jù)分析得更仔細(xì)；這從某種意義上說明AI學(xué)會了"謹(jǐn)慎"——不輕易下結(jié)論，而是把每個細(xì)節(jié)都想清楚再給分。

五、把"核查員"變成"教練"——用獎勵模型來提升編輯模型

有了一個靠譜的核查員之后，第二個大問題隨之而來：怎么用它來提升負(fù)責(zé)編輯圖片的AI？

這里有一個技術(shù)上的難點：傳統(tǒng)的某些訓(xùn)練方法（如REFL）要求獎勵模型的打分過程對訓(xùn)練過程"透明可微"，就好比教練不僅要告訴運動員"你跳高沒跳過去"，還要能精確指出"你起跳時左腳用力角度差了2度"——需要能夠精確計算影響因子。然而Edit-RRM是一個"先思考再打分"的系統(tǒng)，其推理過程是通過逐字生成文本來實現(xiàn)的，這個過程在數(shù)學(xué)上是不可微分的，就像你沒法對"寫日記"這個過程求導(dǎo)數(shù)一樣。

研究團(tuán)隊因此采用了一種叫做GRPO（Group Relative Policy Optimization，群體相對策略優(yōu)化）的強(qiáng)化學(xué)習(xí)算法，這套方法不需要獎勵信號可微，只需要它能輸出一個數(shù)字就夠了。

訓(xùn)練過程是這樣運作的：編輯模型在面對一個圖像編輯任務(wù)時，會同時生成一批不同的編輯結(jié)果（研究中設(shè)置為24張）。核查員對每張結(jié)果進(jìn)行評分，然后計算每張結(jié)果的相對排名——在這批24張圖中，某張圖的分?jǐn)?shù)高于平均就得到正向激勵，低于平均就受到負(fù)向約束。與此同時，還設(shè)置了一個KL散度懲罰項，防止編輯模型的輸出風(fēng)格變化過大，就好比給運動員訓(xùn)練時設(shè)置了一個"不能偏離基本姿勢太遠(yuǎn)"的約束，避免過度優(yōu)化反而走形。

研究團(tuán)隊將Edit-R1應(yīng)用到了兩個當(dāng)前最先進(jìn)的開源圖像編輯模型上：FLUX.Kontext和Qwen-Image-Edit，以此驗證這套框架的實際效果。

六、實驗結(jié)果：核查員越嚴(yán)格，編輯效果越好

研究團(tuán)隊從兩個角度評估了Edit-R1的效果：一是核查員本身的準(zhǔn)確性，二是被核查員訓(xùn)練過的編輯模型的實際水平。

在核查員的評估上，研究團(tuán)隊構(gòu)建了一個內(nèi)部測試基準(zhǔn)，包含5000個經(jīng)過人工標(biāo)注偏好的圖像編輯對。測試結(jié)果顯示，完整訓(xùn)練出來的7B參數(shù)（70億參數(shù)）版本核查員達(dá)到了82.22%的準(zhǔn)確率，這意味著在100次人類評判中，這個核查員能與人類意見吻合超過82次。這個成績明顯超過了Seed-1.5-VL（79.3%）和Seed-1.6-VL（77.2%）這兩個強(qiáng)大的商用API——值得注意的是，這兩個都是字節(jié)跳動自家的強(qiáng)力視覺語言模型，能超過它們實屬不易。

在公開的獨立測試基準(zhǔn)EditRewardBench上，這種優(yōu)勢依然存在。競品EditScore-7B的準(zhǔn)確率是65.9%（即便使用推理擴(kuò)展技術(shù)也只能達(dá)到72.7%），而Edit-RRM僅憑第一階段的監(jiān)督微調(diào)就達(dá)到了73.3%，加入GCPO后進(jìn)一步提升到78.2%。由于EditRewardBench是獨立構(gòu)建的，與研究團(tuán)隊的內(nèi)部流程完全不相關(guān)，這個結(jié)果可以有效排除"內(nèi)部測試偏向"的質(zhì)疑。

研究團(tuán)隊還發(fā)現(xiàn)了一個有意義的規(guī)律：核查員規(guī)模越大，效果越好——3B參數(shù)版本和7B參數(shù)版本之間存在明顯的性能差距，展示出清晰的"參數(shù)規(guī)模擴(kuò)展效益"。

在訓(xùn)練動態(tài)上有一個反直覺的現(xiàn)象值得一提：經(jīng)過GCPO訓(xùn)練的核查員（RL-RRM）在給編輯模型訓(xùn)練時，提供的"訓(xùn)練獎勵"反而比未經(jīng)GCPO訓(xùn)練的版本（SFT-RRM）更低，但"測試獎勵"卻更高。這說明GCPO把核查員訓(xùn)練得更加嚴(yán)格，它不會隨隨便便給高分——正是這種嚴(yán)格反而倒逼編輯模型做得更好。

在對編輯模型的提升效果上，以FLUX.Kontext為例，經(jīng)過Edit-R1框架訓(xùn)練后，其綜合得分（Overall Score）從5.77提升到了6.24，語義一致性得分（Semantic Consistency）從6.27躍升至6.86。在最具挑戰(zhàn)性的"動作變化"類別（如讓靜止的貓變成奔跑狀態(tài)）上，相對提升幅度達(dá)到了15.2%（從4.01提升到4.62）。在人工評測中，使用了Edit-R1框架訓(xùn)練的FLUX.Kontext的GSB得分達(dá)到了+23.2，意味著人類評審認(rèn)為它明顯優(yōu)于原始版本。

對于已經(jīng)相當(dāng)強(qiáng)大的Qwen-Edit模型，整體提升幅度較小（綜合得分從7.45提升到7.50），這主要是因為該模型本身已經(jīng)受益于大量的Best-of-N采樣優(yōu)化。但即便如此，在"動作變化"這類難度極高的任務(wù)上，Edit-R1依然帶來了顯著改善。

定性結(jié)果同樣令人印象深刻。在"顏色更改"任務(wù)中，Edit-R1能夠精確地只修改目標(biāo)物體的顏色，而不會引發(fā)全圖的色調(diào)變化；在"物體添加/刪除"任務(wù)中，基線模型往往無法準(zhǔn)確理解指令，而Edit-R1訓(xùn)練過的模型能夠正確執(zhí)行；在"材質(zhì)替換"（比如把小狗變成粘土質(zhì)感）和"動作變更"（比如讓飛機(jī)處于起飛狀態(tài)）等復(fù)雜任務(wù)上，改進(jìn)效果尤為明顯。

七、一個具體案例：RRM如何抓住"帽子顏色走偏"的錯誤

研究團(tuán)隊在論文中展示了一個生動的失敗矯正案例，可以直觀地理解Edit-R1整個系統(tǒng)的運作邏輯。

任務(wù)是：給一個卡通小女孩的短袖上衣改成紅色，同時保留她的藍(lán)色帽子、雙麻花辮、淺棕色下裝以及背景中的綠色葉片和石頭。

在僅使用第一階段監(jiān)督微調(diào)的SFT模型輸出中，有一張"失敗樣本"：上衣確實變成了紅色，但帽子也跟著變成了紅色——屬于典型的"屬性擴(kuò)散"錯誤，改了不該改的東西。

核查員AI（RRM）對這張失敗圖片逐條進(jìn)行了原則核查，在檢查"帽子是否保留了原來的淺藍(lán)色風(fēng)格"這一條時，給出了0分（未通過），并在推理過程中明確指出了這個問題。這個精確的扣分信號通過強(qiáng)化學(xué)習(xí)傳導(dǎo)給了編輯模型，使其在后續(xù)訓(xùn)練中學(xué)會了"只改上衣顏色，不影響帽子顏色"。

經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練后，該模型的"成功樣本"完美地完成了任務(wù)：上衣變紅，帽子依然是藍(lán)色，其他所有細(xì)節(jié)都保持原樣。RRM對這張圖片的每一條原則都給出了1分（通過），最終得出滿意的綜合評價。

這個案例清晰地展示了從籠統(tǒng)打分到逐條核查的范式轉(zhuǎn)變帶來的實際價值——正是那一條針對帽子顏色的精確扣分，讓AI學(xué)會了區(qū)分"該改的"和"不該改的"。

說到底，Edit-R1做的事情，就是給AI圖像編輯系統(tǒng)安裝了一套"逐條對賬"的質(zhì)檢系統(tǒng)，而不是簡單地"看一眼打個分"。這套質(zhì)檢系統(tǒng)不僅自己越來越準(zhǔn)（超過了商用大模型API的判斷準(zhǔn)確率），還能有效地督促負(fù)責(zé)編輯圖片的AI做得更好。

這對于普通用戶意味著什么？短期來看，受益于這類研究，圖像編輯軟件會變得更聽話——你讓它只改顏色，它就只改顏色；你讓它換背景，它就不會順手動你的臉。長期來看，這種"把大任務(wù)拆成小任務(wù)逐條核查"的思路，可能會成為讓AI在各類復(fù)雜任務(wù)中做得更精確的通用方法論。

值得思考的是，當(dāng)AI擁有了越來越精準(zhǔn)的自我評判能力，我們是否需要重新考慮"什么叫做一張編輯得好的照片"？畢竟，AI的判斷標(biāo)準(zhǔn)來自于人類的標(biāo)注數(shù)據(jù)，而人類的審美本身也在不斷變化。感興趣的讀者可以通過arXiv上的論文編號2604.27505進(jìn)一步探索這個研究的技術(shù)細(xì)節(jié)。

Q&A

Q1：Edit-RRM和普通打分AI有什么區(qū)別？

A：普通打分AI通常只看一眼圖片就輸出一個總分，無法說明哪里好哪里不好。Edit-RRM則會先把編輯指令拆解成若干條具體原則，比如"顏色是否改變了"、"背景是否保留了"、"整體質(zhì)量是否自然"，逐條核查后再綜合出最終分?jǐn)?shù)，這樣每個判斷都有明確依據(jù)，評分結(jié)果也更接近人類的真實判斷。

Q2：GCPO算法為什么只需要1萬條人類標(biāo)注數(shù)據(jù)就能有效果？

A：GCPO的核心是對每張圖片生成多次獨立評分，然后通過"跨組比較"把人類的偏好判斷（A比B好）轉(zhuǎn)化成具體的獎勵信號。多次采樣平均掉了單次打分的隨機(jī)性，使得每條人類標(biāo)注數(shù)據(jù)能提供更豐富的訓(xùn)練信號。因此哪怕只有1萬條數(shù)據(jù)，也能有效精準(zhǔn)地調(diào)整模型的判斷偏好。

Q3：Edit-R1框架可以用在哪些圖像編輯軟件上？

A：Edit-R1是一個通用的訓(xùn)練框架，研究團(tuán)隊已經(jīng)成功將其應(yīng)用于FLUX.Kontext和Qwen-Image-Edit兩個開源圖像編輯模型，均取得了明顯改進(jìn)。理論上，任何基于流匹配或擴(kuò)散模型的圖像編輯系統(tǒng)都可以接入這套框架，只要其生成過程支持GRPO算法所需的采樣和優(yōu)化操作即可。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.