“大家好,我是GPT Image團隊的研究科學家陳博遠。上周發布的GPT生圖模型就是我主力訓練的!”
![]()
對這個“duct-tape”的膠帶,他用了一個很有趣的解釋:
“至于為啥起名叫布基膠帶嘛..當然是因為你可以用布基膠帶把香蕉貼在墻上啦!”
![]()
01
他在問一個更慢的問題
陳博遠并不是那種一眼就能被記住的研究員。沒有頻繁的公開演講,也沒有刻意經營個人表達。他會寫博客、發一些輕松的內容,但這些更像是記錄,而不是建立影響力。
相比之下,他的存在感更多來自模型本身。
![]()
他現在是OpenAI的一名研究員,參與圖像模型的訓練。在此之前,他在麻省理工學院完成電子工程與計算機科學博士學位,同時輔修哲學,也曾在谷歌DeepMind參與多模態模型的研究工作。
這些經歷已經足夠亮眼,但更重要的是他長期關注的問題。
從DeepMind到OpenAI,陳博遠的研究方向幾乎沒有改變。當大多數人還在討論模型能不能寫得更好、畫得更像的時候,他關心的是更基礎的一層:模型究竟在“理解”什么。
具體可以看作三個問題:模型如何理解圖像?圖像和語言之間到底是什么關系?當一個模型面對真實世界時,它究竟是在生成結果,還是在模擬世界?
這些問題聽起來抽象,但它們幾乎決定了今天這一代模型的邊界。
在他的個人主頁上,他把自己的研究方向寫得很直接:世界模型、具身智能、強化學習。
所謂世界模型,可以理解為一件事:讓AI在內部形成一個對世界的判斷。
它不僅要知道眼前發生了什么,還要能預測接下來會發生什么。
這和今天常見的LLM(大語言模型)有一點區別,LLM更像是在處理語言,而世界模型更接近一種結構:它需要理解空間、時間、因果,以及行為的結果。
用一個很簡單的例子來說,AI如果真的“理解”世界,它應該知道塑料杯掉在地上會彈一下,而玻璃杯會碎掉。
具身智能和強化學習,則可以理解為這個問題的延伸——如果一個模型真的理解世界,它就不應該只是回答問題,還應該能夠行動,并在行動中不斷修正自己的判斷。
他參與的工作,往往不是單一任務優化,而是試圖把生成模型、視覺理解和決策系統連在一起。
![]()
他最有代表性的工作之一,是一項名為Diffusion Forcing的研究。
這項研究試圖解決一個很基礎的問題:模型到底是一步一步生成,還是一次性生成?
LLM是前者,它擅長靈活生成,但在長內容里容易出錯;擴散模型更接近后者,它更穩定,但缺乏結構。
陳博遠的做法,則是把這兩種方式放在同一個模型里,讓模型既能逐步生成,又能對整體進行約束。
如果說Diffusion Forcing是在時間維度上做統一,那么他參與的另一項工作SpatialVLM,則是在空間維度上補齊能力。
這個工作針對一個長期存在的問題:模型雖然能看圖說話,但并不真正理解空間關系。它不知道遠近、大小,也不清楚物體之間的相對位置。
為了解決這一點,他所在的團隊構建了一套三維空間推理體系,讓模型不僅能“看見”,還要能“推理”。
類似的思路也出現在其他工作中,比如利用歷史信息指導生成的History-Guided方法,或者將視覺、動作與語言統一建模的研究。這些工作看起來分散,但都指向一個方向:讓模型不只是輸出結果,而是在內部形成一種穩定的表示。
在嚴肅的研究方向之外,陳博遠也會偶爾流露出一種很鮮活的個人趣味。
![]()
他還寫了一篇博客,給美國計算機科學名校做了一個排名,標準不是科研實力,而是珍珠奶茶。
他把伯克利排在第一位,因為校園周圍“幾乎被高質量奶茶店包圍”,而MIT則被他打了一個不太高的分數,理由是“附近奶茶店太少,而且質量不穩定”。
![]()
這類表達很輕松,但可以看出他的研究習慣:把復雜的問題拆開,找到可以比較的維度,再做判斷。
他的工作本身也在做類似的事情,只不過對象換成了模型。
02
他避開了更容易的方向
如果只看圖像模型的發展路徑,過去的邏輯其實很清晰:更大的數據、更高的分辨率、更穩定的生成過程。大多數改進,集中在“畫得更像”這件事上。
問題從生成質量,轉向了結構一致性。
這類問題并不是所有研究者都會去做,它既不直接對應某一個評測指標,也很難在短期內轉化成產品效果。相比之下,做分辨率、做風格、做細節,往往更容易看到提升。
而陳博遠的路徑,恰好避開了那些“更容易”的方向:從他在學術階段的研究開始,他關注的就不是單一模態的能力,而是不同能力之間如何被連接在一起。
在很長一段時間里,視覺模型、語言模型和決策系統,是各自發展的。它們可以通過接口連接,但在內部往往是分開的。因此,模型雖然可以“調用能力”,卻很難表現出一致的理解。
陳博遠做的工作,就是試圖改變這種狀態。
更關鍵的是,這張圖不是拼接出來的——按照他的說法,整張圖,包括畫中畫和畫中畫中畫都是一次性生成的。他擔心大家以為這是拼接圖,還特意在圖底加了備注。
再比如米粒刻字。
![]()
還有那張黑板視覺證明。
這也是GPT Image 2這次發布里最值得注意的變化之一:它開始能把一個抽象關系變成圖像結構,再把這個結構用視覺方式表達出來。
![]()
所以,與其說GPT Image 2在“生圖”,不如說它在生成一種帶有結構的視覺表達。
過去的圖像模型容易在這里崩掉,是因為它們把圖像當成像素結果。而這一代更強的圖像模型,必須把圖像當成一種帶結構的表達。
03
他不是一個人
在OpenAI內部,真正參與模型訓練的人其實不多。GPT-image-2發布之后,研究負責人Gabriel Goh在社交媒體上公開感謝了他們的團隊成員。
名單并不長,只有十幾個人。
![]()
這更像是一支小團隊,而不是一個龐大的工程體系。
團隊成員分散在不同方向,有人做視覺,有人做生成機制,有人處理系統結構,但最終指向的是同一件事:讓模型具備一套可以同時處理圖像、語言和結構的能力。
模型的結構、能力邊界,甚至“圖像應該是什么”,都是在這樣的團隊里被一點點做出來的。
除陳博遠之外,還包括做視覺語言模型的王劍鋒(Jianfeng Wang)、做模型評估與數據問題的梁偉新(Weixin Liang)、長期從事圖像生成的楊宇光(Yuguang Yang)、以及參與圖像生成與系統訓練的多位研究者。
也就是說,GPT Image 2是一次研究、產品、審美和傳播的共同完成。模型團隊要把能力做出來,藝術團隊要知道什么樣的圖能把能力展示出來,市場團隊要把這些能力翻譯成普通用戶看得懂、愿意測試、也愿意傳播的畫面。
每一張圖都在告訴用戶:你以前覺得圖像模型做不到的事情,現在可以重新試一遍。
從這個角度看,陳博遠的位置很特殊。
他說:“希望這次穩穩地接住了大家。”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.