網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

那個(gè)在OpenAI修中文的人

2026-05-02 12:05:17　來(lái)源: 字母榜

北京舉報(bào)

分享至

OpenAI研究科學(xué)家陳博遠(yuǎn)在知乎上發(fā)了一篇文章，開(kāi)頭非常直接：

“大家好，我是GPT Image團(tuán)隊(duì)的研究科學(xué)家陳博遠(yuǎn)。上周發(fā)布的GPT生圖模型就是我主力訓(xùn)練的！”

他還提到，這次終于修好了模型的中文渲染。如果中文用戶有什么反饋，可以直接回復(fù)他。

ChatGPT Images 2.0發(fā)布之后，很多人的第一反應(yīng)是：這個(gè)模型的中文能力，強(qiáng)得有點(diǎn)不講道理。

過(guò)去的圖像模型多少有些“看不懂字”。它們能畫(huà)風(fēng)景、畫(huà)人物，但一旦涉及中文，就很容易變成一團(tuán)難以辨認(rèn)的鬼畫(huà)符。但GPT-image-2不一樣，它不僅能寫(xiě)對(duì)字，還能排版、分段、生成帶邏輯結(jié)構(gòu)的中文信息圖。

曾經(jīng)那種“看文字判斷是不是AI生成”的辦法，到這一代已經(jīng)行不通了。

陳博遠(yuǎn)是GPT Image 2訓(xùn)練和能力展示里真正站到前臺(tái)的人之一。在發(fā)布會(huì)上，他和奧特曼一起演示了文字渲染能力。發(fā)布后，他又在知乎上解釋了官網(wǎng)圖片背后的很多花絮：LMArena雙盲測(cè)試時(shí)，GPT Image 2曾用“duct-tape”（布基膠帶）作為代號(hào)；官網(wǎng)blog里的很多圖片，是他親手用模型做出來(lái)的；中文漫畫(huà)、米粒刻字、多語(yǔ)言文字、視覺(jué)證明、自動(dòng)生成二維碼，這些看起來(lái)像宣傳素材的圖片，其實(shí)都是一次次有設(shè)計(jì)目的的能力測(cè)試。

對(duì)這個(gè)“duct-tape”的膠帶，他用了一個(gè)很有趣的解釋：

“至于為啥起名叫布基膠帶嘛..當(dāng)然是因?yàn)槟憧梢杂貌蓟z帶把香蕉貼在墻上啦！”

他在問(wèn)一個(gè)更慢的問(wèn)題

陳博遠(yuǎn)并不是那種一眼就能被記住的研究員。沒(méi)有頻繁的公開(kāi)演講，也沒(méi)有刻意經(jīng)營(yíng)個(gè)人表達(dá)。他會(huì)寫(xiě)博客、發(fā)一些輕松的內(nèi)容，但這些更像是記錄，而不是建立影響力。

相比之下，他的存在感更多來(lái)自模型本身。

他現(xiàn)在是OpenAI的一名研究員，參與圖像模型的訓(xùn)練。在此之前，他在麻省理工學(xué)院完成電子工程與計(jì)算機(jī)科學(xué)博士學(xué)位，同時(shí)輔修哲學(xué)，也曾在谷歌DeepMind參與多模態(tài)模型的研究工作。

這些經(jīng)歷已經(jīng)足夠亮眼，但更重要的是他長(zhǎng)期關(guān)注的問(wèn)題。

從DeepMind到OpenAI，陳博遠(yuǎn)的研究方向幾乎沒(méi)有改變。當(dāng)大多數(shù)人還在討論模型能不能寫(xiě)得更好、畫(huà)得更像的時(shí)候，他關(guān)心的是更基礎(chǔ)的一層：模型究竟在“理解”什么。

具體可以看作三個(gè)問(wèn)題：模型如何理解圖像？圖像和語(yǔ)言之間到底是什么關(guān)系？當(dāng)一個(gè)模型面對(duì)真實(shí)世界時(shí)，它究竟是在生成結(jié)果，還是在模擬世界？

這些問(wèn)題聽(tīng)起來(lái)抽象，但它們幾乎決定了今天這一代模型的邊界。

在他的個(gè)人主頁(yè)上，他把自己的研究方向?qū)懙煤苤苯樱?strong>世界模型、具身智能、強(qiáng)化學(xué)習(xí)。

所謂世界模型，可以理解為一件事：讓AI在內(nèi)部形成一個(gè)對(duì)世界的判斷。

它不僅要知道眼前發(fā)生了什么，還要能預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么。

這和今天常見(jiàn)的LLM（大語(yǔ)言模型）有一點(diǎn)區(qū)別，LLM更像是在處理語(yǔ)言，而世界模型更接近一種結(jié)構(gòu)：它需要理解空間、時(shí)間、因果，以及行為的結(jié)果。

用一個(gè)很簡(jiǎn)單的例子來(lái)說(shuō)，AI如果真的“理解”世界，它應(yīng)該知道塑料杯掉在地上會(huì)彈一下，而玻璃杯會(huì)碎掉。

具身智能和強(qiáng)化學(xué)習(xí)，則可以理解為這個(gè)問(wèn)題的延伸——如果一個(gè)模型真的理解世界，它就不應(yīng)該只是回答問(wèn)題，還應(yīng)該能夠行動(dòng)，并在行動(dòng)中不斷修正自己的判斷。

他參與的工作，往往不是單一任務(wù)優(yōu)化，而是試圖把生成模型、視覺(jué)理解和決策系統(tǒng)連在一起。

他最有代表性的工作之一，是一項(xiàng)名為Diffusion Forcing的研究。

這項(xiàng)研究試圖解決一個(gè)很基礎(chǔ)的問(wèn)題：模型到底是一步一步生成，還是一次性生成？

LLM是前者，它擅長(zhǎng)靈活生成，但在長(zhǎng)內(nèi)容里容易出錯(cuò)；擴(kuò)散模型更接近后者，它更穩(wěn)定，但缺乏結(jié)構(gòu)。

陳博遠(yuǎn)的做法，則是把這兩種方式放在同一個(gè)模型里，讓模型既能逐步生成，又能對(duì)整體進(jìn)行約束。

如果說(shuō)Diffusion Forcing是在時(shí)間維度上做統(tǒng)一，那么他參與的另一項(xiàng)工作SpatialVLM，則是在空間維度上補(bǔ)齊能力。

這個(gè)工作針對(duì)一個(gè)長(zhǎng)期存在的問(wèn)題：模型雖然能看圖說(shuō)話，但并不真正理解空間關(guān)系。它不知道遠(yuǎn)近、大小，也不清楚物體之間的相對(duì)位置。

為了解決這一點(diǎn)，他所在的團(tuán)隊(duì)構(gòu)建了一套三維空間推理體系，讓模型不僅能“看見(jiàn)”，還要能“推理”。

類似的思路也出現(xiàn)在其他工作中，比如利用歷史信息指導(dǎo)生成的History-Guided方法，或者將視覺(jué)、動(dòng)作與語(yǔ)言統(tǒng)一建模的研究。這些工作看起來(lái)分散，但都指向一個(gè)方向：讓模型不只是輸出結(jié)果，而是在內(nèi)部形成一種穩(wěn)定的表示。

在嚴(yán)肅的研究方向之外，陳博遠(yuǎn)也會(huì)偶爾流露出一種很鮮活的個(gè)人趣味。

比如這次在知乎上發(fā)表的文章，又比如他在個(gè)人主頁(yè)特別介紹了自己的興趣是珍珠奶茶（making boba），就連知乎名都是”MIT奶茶店長(zhǎng)“。

他還寫(xiě)了一篇博客，給美國(guó)計(jì)算機(jī)科學(xué)名校做了一個(gè)排名，標(biāo)準(zhǔn)不是科研實(shí)力，而是珍珠奶茶。

他把伯克利排在第一位，因?yàn)樾@周圍“幾乎被高質(zhì)量奶茶店包圍”，而MIT則被他打了一個(gè)不太高的分?jǐn)?shù)，理由是“附近奶茶店太少，而且質(zhì)量不穩(wěn)定”。

這類表達(dá)很輕松，但可以看出他的研究習(xí)慣：把復(fù)雜的問(wèn)題拆開(kāi)，找到可以比較的維度，再做判斷。

他的工作本身也在做類似的事情，只不過(guò)對(duì)象換成了模型。

他避開(kāi)了更容易的方向

如果只看圖像模型的發(fā)展路徑，過(guò)去的邏輯其實(shí)很清晰：更大的數(shù)據(jù)、更高的分辨率、更穩(wěn)定的生成過(guò)程。大多數(shù)改進(jìn)，集中在“畫(huà)得更像”這件事上。

但隨著模型開(kāi)始處理更復(fù)雜的內(nèi)容，這條路徑也走到了瓶頸：當(dāng)圖像里不僅有視覺(jué)元素，還包含文字、結(jié)構(gòu)甚至邏輯關(guān)系時(shí)，問(wèn)題不再只是像或不像，而是這些信息如何同時(shí)成立。

問(wèn)題從生成質(zhì)量，轉(zhuǎn)向了結(jié)構(gòu)一致性。

這類問(wèn)題并不是所有研究者都會(huì)去做，它既不直接對(duì)應(yīng)某一個(gè)評(píng)測(cè)指標(biāo)，也很難在短期內(nèi)轉(zhuǎn)化成產(chǎn)品效果。相比之下，做分辨率、做風(fēng)格、做細(xì)節(jié)，往往更容易看到提升。

而陳博遠(yuǎn)的路徑，恰好避開(kāi)了那些“更容易”的方向：從他在學(xué)術(shù)階段的研究開(kāi)始，他關(guān)注的就不是單一模態(tài)的能力，而是不同能力之間如何被連接在一起。

在很長(zhǎng)一段時(shí)間里，視覺(jué)模型、語(yǔ)言模型和決策系統(tǒng)，是各自發(fā)展的。它們可以通過(guò)接口連接，但在內(nèi)部往往是分開(kāi)的。因此，模型雖然可以“調(diào)用能力”，卻很難表現(xiàn)出一致的理解。

陳博遠(yuǎn)做的工作，就是試圖改變這種狀態(tài)。

這次模型的很多能力展示，本來(lái)就發(fā)生在“圖像、文字、梗、真實(shí)物體和文化語(yǔ)境”的交界處。

陳博遠(yuǎn)說(shuō)，官網(wǎng)blog里的很多圖片都是他親手做的。整個(gè)blog都是用圖片生成的，完全沒(méi)有普通文本。換句話說(shuō)，用戶在官網(wǎng)上看到的很多示例，不只是宣傳物料，而是模型能力本身的一部分。

比如那張中文彩蛋漫畫(huà)。

他想做一個(gè)很搞笑的漫畫(huà)，于是用到了“接住梗”和“香蕉梗”。為了展示文字能力，他特意讓模型在圖里加入多國(guó)語(yǔ)言文字，又在家鄉(xiāng)海報(bào)的右下角生成特別特別小的中文，用來(lái)測(cè)試模型到底能處理多細(xì)的細(xì)節(jié)。

更關(guān)鍵的是，這張圖不是拼接出來(lái)的——按照他的說(shuō)法，整張圖，包括畫(huà)中畫(huà)和畫(huà)中畫(huà)中畫(huà)都是一次性生成的。他擔(dān)心大家以為這是拼接圖，還特意在圖底加了備注。

這正好說(shuō)明GPT Image 2的難點(diǎn)在哪里。過(guò)去的圖像模型如果能寫(xiě)出幾個(gè)不出錯(cuò)的大字，已經(jīng)算很不錯(cuò)了。但GPT Image 2要處理的是一整套層級(jí)：它要知道這是一張漫畫(huà)書(shū)照片，漫畫(huà)書(shū)里有圖，圖里還有圖；它要在不同層級(jí)里放入不同語(yǔ)言的文字；它還要讓這些文字和畫(huà)面關(guān)系成立，而不是隨機(jī)散落在圖里。

再比如米粒刻字。

陳博遠(yuǎn)說(shuō)，他一開(kāi)始覺(jué)得普通文字渲染還不夠驚艷，于是在隊(duì)友提示下做了一張4K圖：畫(huà)面里是一堆米粒，其中一顆米粒上刻著字。

這測(cè)試了模型在極小尺度里的文字控制能力。

還有那張黑板視覺(jué)證明。

陳博遠(yuǎn)表示：“如果讓他解普通數(shù)學(xué)題方程啥的，似乎就太簡(jiǎn)單了。nano banana似乎通過(guò)思考模式+文字渲染的方式也能做。于是我想到了我非常喜歡的一個(gè)視覺(jué)證明來(lái)真正考驗(yàn)GPT Image 2獨(dú)特的視覺(jué)推理效果。圖里提示詞說(shuō)的是，在黑板上用視覺(jué)（而不是代數(shù)）證明從1開(kāi)始的奇數(shù)之和是一個(gè)平方。普通的模型其實(shí)很容易推理出代數(shù)解，但是圖形解只有視覺(jué)模型才能做了。”

這也是GPT Image 2這次發(fā)布里最值得注意的變化之一：它開(kāi)始能把一個(gè)抽象關(guān)系變成圖像結(jié)構(gòu)，再把這個(gè)結(jié)構(gòu)用視覺(jué)方式表達(dá)出來(lái)。

所以，與其說(shuō)GPT Image 2在“生圖”，不如說(shuō)它在生成一種帶有結(jié)構(gòu)的視覺(jué)表達(dá)。

漫畫(huà)、海報(bào)、視覺(jué)證明……這些東西本質(zhì)上都不是純圖片，它們同時(shí)包含文字、排版、層級(jí)、對(duì)象關(guān)系、任務(wù)目標(biāo)和審美判斷。

過(guò)去的圖像模型容易在這里崩掉，是因?yàn)樗鼈儼褕D像當(dāng)成像素結(jié)果。而這一代更強(qiáng)的圖像模型，必須把圖像當(dāng)成一種帶結(jié)構(gòu)的表達(dá)。

他不是一個(gè)人

在OpenAI內(nèi)部，真正參與模型訓(xùn)練的人其實(shí)不多。GPT-image-2發(fā)布之后，研究負(fù)責(zé)人Gabriel Goh在社交媒體上公開(kāi)感謝了他們的團(tuán)隊(duì)成員。

名單并不長(zhǎng)，只有十幾個(gè)人。

這更像是一支小團(tuán)隊(duì)，而不是一個(gè)龐大的工程體系。

團(tuán)隊(duì)成員分散在不同方向，有人做視覺(jué)，有人做生成機(jī)制，有人處理系統(tǒng)結(jié)構(gòu)，但最終指向的是同一件事：讓模型具備一套可以同時(shí)處理圖像、語(yǔ)言和結(jié)構(gòu)的能力。

推文里的插圖某種程度上也像是一個(gè)比喻：一群人圍在一起，每個(gè)人負(fù)責(zé)一部分，最后拼成同一張圖。

模型的結(jié)構(gòu)、能力邊界，甚至“圖像應(yīng)該是什么”，都是在這樣的團(tuán)隊(duì)里被一點(diǎn)點(diǎn)做出來(lái)的。

有個(gè)值得注意的地方是，在這十幾人的核心團(tuán)隊(duì)里，可以看到相當(dāng)數(shù)量的中文名字。

除陳博遠(yuǎn)之外，還包括做視覺(jué)語(yǔ)言模型的王劍鋒（Jianfeng Wang）、做模型評(píng)估與數(shù)據(jù)問(wèn)題的梁偉新（Weixin Liang）、長(zhǎng)期從事圖像生成的楊宇光（Yuguang Yang）、以及參與圖像生成與系統(tǒng)訓(xùn)練的多位研究者。

陳博遠(yuǎn)也沒(méi)有把這件事寫(xiě)成一個(gè)人的勝利。在知乎文章的最后，他特別感謝了整個(gè)團(tuán)隊(duì)。他說(shuō)，每個(gè)人都做了很多很多的事情。在發(fā)布前的尾聲，他除了修一些小東西，就是和市場(chǎng)部門的同事、做藝術(shù)的同事一起準(zhǔn)備發(fā)布會(huì)和網(wǎng)站。

也就是說(shuō)，GPT Image 2是一次研究、產(chǎn)品、審美和傳播的共同完成。模型團(tuán)隊(duì)要把能力做出來(lái)，藝術(shù)團(tuán)隊(duì)要知道什么樣的圖能把能力展示出來(lái)，市場(chǎng)團(tuán)隊(duì)要把這些能力翻譯成普通用戶看得懂、愿意測(cè)試、也愿意傳播的畫(huà)面。

這也是為什么這次發(fā)布里的很多示例都很特別。它們并不是隨便生成一張漂亮圖片就結(jié)束，而是在主動(dòng)制造難題：多國(guó)語(yǔ)言、極小文字、畫(huà)中畫(huà)、真實(shí)物體、視覺(jué)證明、搜索生成海報(bào)、二維碼嵌入。

每一張圖都在告訴用戶：你以前覺(jué)得圖像模型做不到的事情，現(xiàn)在可以重新試一遍。

從這個(gè)角度看，陳博遠(yuǎn)的位置很特殊。

他既在模型訓(xùn)練一側(cè)，也站到了發(fā)布敘事的一側(cè)；他不僅參與把模型做出來(lái)，也親手設(shè)計(jì)了很多讓外界理解模型能力的圖片。

GPT Image 2當(dāng)然不是陳博遠(yuǎn)一個(gè)人的作品，但從公開(kāi)信息看，陳博遠(yuǎn)確實(shí)是這次圖像模型發(fā)布中最值得中文社區(qū)關(guān)注的名字之一。

一方面，這次發(fā)布的GPT生圖模型就是他主力訓(xùn)練的；另一方面，他又剛好承擔(dān)了一個(gè)中文用戶最容易感知的突破：中文渲染。

當(dāng)AI終于能把中文寫(xiě)進(jìn)復(fù)雜圖像里，背后那個(gè)長(zhǎng)期研究世界模型、空間理解和生成一致性的研究者，站到了臺(tái)前。

他說(shuō)：“希望這次穩(wěn)穩(wěn)地接住了大家。”

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.