<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      AI 隱藏“思維鏈”,是怕被人類監督污染!OpenAI首席科學家最新訪談:駕馭工程會越來越通用

      0
      分享至

      從接管真實代碼,到重塑社會財富分配。

      編譯 | 王啟隆

      出品丨AI 科技大本營(ID:rgznai100)

      OpenAI 這些年最不缺的,就是被放大的人。

      Sam Altman 當然不用說,幾乎已經成了這家公司對外敘事的一張臉,而上周末的兩場遇襲事件,更是讓他備受煎熬。離開了好久的 Ilya Sutskever,在很長一段時間里,則更像 OpenAI 技術理想主義的化身。哪怕在 OpenAI 早期就分道揚鑣的馬斯克和 Dario Amodei,也早就是這輪 AI 競賽里繞不過去的人物。

      可真正接替 Ilya、坐上 OpenAI 首席科學家位置的Jakub Pachocki,反而一直沒怎么被真正看見。


      這其實有點反常。一家公司走到今天這個位置,首席科學家按理說不該是一個模糊角色。尤其是在 OpenAI 這樣一家一舉一動都被放大的公司里,誰在主導研究、誰在判斷模型能力往哪走、誰在決定哪些方向值得繼續壓重注,理論上都應該是外界最想知道的事。可過去很長一段時間里,Jakub 更像一個在背景里工作的人。你知道這個名字重要,但很少真的聽他把一整套判斷完整講出來。

      最近,他接受 Jacob Efron 播客的《Unsupervised Learning》訪談,兩人從編程智能體的爆發聊起,一路談到數學和物理 benchmark 為什么曾經是 OpenAI 的北極星、強化學習怎么從 code 和 math 走向更長時程的開放任務、模型開始反過來加速模型研究之后,研究組織該怎么管,最后又落到一個比時間表更硬的問題上:當越來越多智力勞動可以被自動化,權力會不會以前所未有的速度集中到極少數人手里。


      當 Codex 已經在 OpenAI 內部承擔了大多數真實編碼工作,當模型開始成為研究流程的一部分,當一個高度自動化的研究組織、甚至高度自動化的公司開始顯出輪廓,問題就不再只是,AGI 還有多遠,或者下一個 benchmark 還能不能漲。問題會慢慢變成,誰在控制這些系統,組織會被改寫成什么樣,財富和權力會不會以前所未有的速度集中到極少數人手里,而這些事,我們到底有沒有準備好。

      要點速覽

      • 編程智能體的爆發已經把研究組織帶進了新階段。Codex 在 OpenAI 內部已經承擔了大多數真實編碼工作,這不是單一產品成功,而是“研究實習生級能力”正在逼近的直接信號。

      • 數學、物理 benchmark 的這些題不是終點,而是過去幾年 OpenAI 用來追蹤“模型到底有沒有變聰明”的北極星。但現在,隨著模型開始碰到 IMO 級問題、進入研究數學,OpenAI 也在把北極星改成“能不能在真實世界真正有用”。

      • 在很長一段時間里,harness(駕馭工程)的實現本身都不該成為真正的限制。我們會得到越來越通用的 harness,能被用到很多別的領域。

      • 在強化學習的問題上,不是 RL 在 code 和 math 上有多強,而是下一站其實是“長時程 + 開放任務”。

      • OpenAI 的方向不是讓每個行業都重造一套系統,而是讓模型越來越能在你已經使用的界面、工具和上下文里工作,最終“AI 默認應該來適應人,而不是要求人去適應 AI 的限制”。

      • 更長期、更難的問題仍然是泛化:模型到了陌生情境、能力大幅上升之后,最終會回落到什么價值觀上。

      • 高度自動化的研究實驗室和公司,可能被極少數人控制,而這種權力集中本身就是社會問題,而且目前沒有顯而易見的解決方案。


      OpenAI 的“北極星”為何從做數學題轉向真實世界?

      主持人:幾個月前,你和 OpenAI 團隊提到,希望今年 9 月前做到“研究實習生級能力”,再往后到 2028 年 3 月,走向更完整的自動化 AI 研究員。四個月過去了,你現在怎么看這些時間表?

      Jakub Pachocki:過去幾個月里最明顯的變化,就是 coding tools 的爆發式增長。說它是增長都算輕描淡寫。OpenAI 現在已經到了一個階段:我們把 Codex 用在了大多數真實編碼工作上。所以我覺得,對大多數人來說,編程這件事本身已經變了。這當然會讓我覺得,有些東西確實還在軌道上。


      另一個讓我很在意的更新,是模型在數學研究上的進步,以及我們在物理等領域看到的結果。模型現在展現出來的這種能力——提供洞見、調用基礎設施、在測試時動用更多算力,而這正是 Codex 現在已經在做的——再加上我預計未來幾個月里通用智能還會繼續提升,這一切都讓我們仍然非常專注于這條路線。

      主持人:那你們會怎么判斷,自己真的到了“研究實習生級能力”這一步?

      Jakub Pachocki:在我看來,“研究實習生”和“完全自動化的研究員”之間,最關鍵的區別,是系統能自主工作的時間跨度有多長,以及你需要把任務交代得多具體。

      我并不覺得今年我們就會有這樣的系統:你只要對它說,“去提升模型能力”“去解決對齊問題”,它就能自己全包下來。今年還不會。但如果是更具體的技術想法,比如“我有一個提升模型的方法”“我有一種新的評測做法”,我覺得我們需要的那些部件,大體上已經都在了,更多只是把它們拼起來的問題。

      主持人:Karpathy 之前發過一段很火的演示,用這些模型去改進他自己的小模型。雖然那遠沒有你們這里復雜,但那種方向是不是大致對路?

      Jakub Pachocki:我覺得是同一個方向。我預期它會像 Codex 現在的狀態那樣,沿著一條連續演化的線往前走:更高一點自主性、能連續跑更長時間。我們會看到越來越多這樣的應用。總的來說,模型會變得更自主,也會在更多事情上動用更高的算力。

      主持人:你提到數學和物理。對很多人來說,coding progress 很容易理解,因為它直接能幫助 AI research。但數學和物理上的進展,到底是怎么和這件事連起來的?

      Jakub Pachocki:數學 benchmark 對我們最大的價值,是它充當了一種通用 benchmark,也是一顆北極星,幫助我們判斷該怎么繼續提升這項技術。數學高度可測,比起判斷一段軟件到底寫得好不好,判斷一道數學題有沒有做出來,容易得多。而且數學可以變得非常難:它既有清晰的對錯標準,又能無限拉高難度。

      直到不久之前,我對這件事的理解還是:我們的模型能做簡單數學題,但做不了 IMO 級題目。這說明模型智能里存在一個非常清晰、非常容易測量的缺口,而這恰好給我們提供了方向。對 reasoning models 來說,這一直是我們的北極星。

      但現在,這件事正在快速變化。我們已經碰到了之前一直努力想達到的幾個里程碑,比如解 IMO 問題,甚至開始試探研究級數學。從這個階段往后看,繼續用這些 benchmark 測進步仍然有意義,而且從數學推理能力到 AI 研究能力之間,的確存在遷移。我們很多最好的研究員,本來就是數學或其他理論學科出身。

      但同樣很明確的是,我們正在改變自己對北極星的理解。我們越來越關心新一代模型在真實世界里到底有沒有用,尤其是對 AI research 有沒有用,對其他有經濟價值的任務有沒有用,對別的科學領域,尤其是更偏應用的科學,有沒有用。之所以發生這個轉變,是因為我們覺得模型已經足夠強了——不是說它在所有方面都比人聰明,但已經強到足以實質性改變經濟、改變做事方式。所以我們對這件事的緊迫感也在迅速上升。


      未來 AI 的默認底色,是主動“長在”你的工作流與界面里

      主持人:早期選擇數學這種領域,幾乎是最理想的起點:足夠難,但又容易驗證。code 也有類似屬性。但很多真正有價值的任務,比如醫學、法律、金融,并沒有那么容易驗證。大家現在都在想,RL 在這些領域還能不能復制在 code 和 math 上那種驚人的進步。

      Jakub Pachocki:我當然覺得可以。我們經常會從一個對偶關系去理解這件事:對于更一般、更難評估的任務,它們其實和“更長時程的任務”共享了很多共同點。你想,就算是一個定義得很清楚的數學題或 coding 問題,如果它需要你干一年,那即便一年后的成功標準很清楚,第一天到底該干什么,仍然是一個非常開放的問題。

      所以我覺得,這兩種難度其實是在重合的,而且非常清楚地構成了系統發展的下一條前沿。我們已經看到不少令人鼓舞的信號:一方面,我們在這些更一般的領域上擴展 RL 的能力是有前景的;另一方面,我們在一些相關努力上也看到了很大的潛力。

      主持人:在這些領域里,一個最大的難點就是你甚至不知道“成功”到底是什么。短任務就已經更難了,長任務只會更難。你們會怎么理解這個研究挑戰?

      Jakub Pachocki:我總會回到一個現實問題:怎么讓模型連續工作很久,以及怎么教會它判斷“局部進展”。

      哪怕不說 RL,光看更長時程能力的來源,也能看到一些線索。隨著模型在純監督式預訓練下變得更穩定,它會逐漸獲得一種感覺:什么樣的中間產物算是好的。所以即便我們沒有在 RL 上取得特別巨大的擴展,我也覺得這些工作時長本身會繼續拉長。真正的研究難點,是怎么把這些從 RL 來的新想法,遷移到更一般的領域中去。但我對這件事是比較樂觀的。

      主持人:聽起來,你有一個很重要的心智模型:模型本身也要能以某種可靠節奏檢查自己的進展。

      Jakub Pachocki:是的。我們當然還在大規模買算力,因為我們仍然相信這條路,而且在某種程度上比過去更相信。我們也看到了新技術、新的擴展方式。但我們畢竟已經不再只是造一個懸在天上的“大腦”,而是想把它真正接進現實世界。

      如果你真想讓它去做醫學研究,想讓它未來幫助治癌癥,它就必須以某種有意義的方式認識現實世界,甚至自己設計實驗、從實驗結果里學習。要做到這一點,你就必須把它接上去。那確實會把問題帶向你剛才說的方向,但這不意味著我們過去一直在擴展的那些簡單算法就失效了。

      主持人:我最近跟很多公司聊,大家都會問同一個問題:要不要自己做 RL?拿一個開源模型,結合自己任務上的數據和 evals,值不值得自己動手?

      Jakub Pachocki:強化學習當然可能是一種非常高效的方式,讓模型在某個任務上大幅提升。但我們還知道另一種更高效的學習方式,那就是 in-context learning。某種意義上,這甚至可能是人類教模型最根本的方式:你給它例子、給它指令,告訴它你想要什么。

      我預計這種學習方式以后會越來越強。所以最關鍵的,還是模型能不能適應你的上下文,適應你關心的任務。我覺得這件事會非常重要。至于直接復制今天這套 RL pipeline,是不是正確路徑,我并不確定。但這確實是我們一直在想的問題。

      主持人:換句話說,公司還是得自己弄清楚哪些 eval 重要、收集數據、整理例子,但未來也許并不需要自己訓模型,只要把這些內容高質量地喂給模型上下文就夠了。

      Jakub Pachocki:我覺得這很有可能。

      主持人:那 harness(駕馭工程)呢?很多人也在想,像法律、金融、醫療這些領域,要不要自己重造一套調用框架。

      Jakub Pachocki:在很長一段時間里,harness 的實現本身都不該成為真正的限制。我們會得到越來越通用的 harness,能被用到很多別的領域。實際上,如果你愿意試試,Codex 拿去做 coding 之外的事情,也已經挺不錯了。

      主持人:所以長期看,harness 會越來越通用,越來越像人類面對工具的方式?

      Jakub Pachocki:我覺得還應該再往前想一步:我們到底希望人類最終通過什么界面跟模型交互?

      模型當然可以擁有自己的 UI affordance,也能自己搭界面,做很多在人看來很費時間的事。但我同樣覺得,有非常大的空間,是讓模型去接入我們已經在用的那些界面。比如,我當然希望 AI 能在 Slack 里工作,能接進我們的上下文,從這些上下文里學習,去調用我們已經在使用的東西。

      所以這里會有一個中間地帶。但長期來看,默認應該是 AI 來適應你所在的位置;如果它沒有這么做,那應該是因為它多出了一些新能力,而不是因為它本身有局限。

      主持人:很多人會抱怨,模型做不了更長的任務、做不了更復雜的工作。但很多時候,問題是不是只是因為模型沒接上足夠的上下文、文件和系統?

      Jakub Pachocki:我覺得很大程度上確實是這樣。很多人以為那是“能力缺口”,其實可能只是模型根本沒有被接入到做事需要的上下文、文件、工具和環境里。

      回頭看我們對 RL 路線的討論,早期我很明確地把“先教會模型用自己的 token 做推理”看作第一優先級。之后當然還得讓它學會調用工具、學會看、學會在某個階段使用物理身體。但現在我們已經明顯進入另一個階段了:模型真的需要和環境交互,需要看見環境,而再往后,不久之后,我們也會開始真正關心機器人。


      OpenAI 是如何重注算力與重構組織的?

      主持人:你現在每天肯定都能在研究端看到很多瘋狂的東西。對你來說,什么樣的里程碑現在還是有沖擊力的?

      Jakub Pachocki:現在最關鍵的就是 research 本身。模型到底能不能發現新東西?能不能真的執行一個更長時程的研究問題?

      主持人:就像某天你看到一個結果,會想:如果這是我團隊里某個研究員提出來的點子,我也會很在意。

      Jakub Pachocki:實際上,就連 GPT-4 也已經給過我們一些很小、但我認為挺有影響力的想法,我們現在內部就在使用。只不過,它離我預期中的那個階段還差得遠。

      主持人:模型顯然會繼續變強,也會越來越深入地參與研究。你自己就在第一線和這些模型協作。你覺得,一個研究組織在這種變化下會變成什么樣?

      Jakub Pachocki:我覺得我們已經到了一個轉折點:短期內模型本身的質量,很快就會非常直接地決定研究進展的速度,因為模型將驅動其中很大一部分工作。

      這件事要求我們重新改寫一些關于“怎么管理研究組織”的直覺。正常情況下,你不會過度關注眼前模型質量,而是更看重長期。但現在不一樣。我們當然還有很多非常令人興奮的東西在排隊推進,可我也確實對執行速度有很強的緊迫感,因為我們需要把這些模型智能上的進展真正轉化成 AI research,尤其是 AI alignment research 的加速度。

      主持人:這很有意思。過去的研究組織,更像是給研究員時間和空間,讓他們追那些一兩個月看不到結果、但長期更關鍵的方向。現在則像是,你必須同時盯住眼前模型質量,因為它會直接改變一切。

      Jakub Pachocki:對,我們最近確實花了很多時間討論這個問題。

      主持人:你們現在顯然有大量算力。預訓練有 scaling,RL 也有 scaling,同時還會有很多和這兩條主線無關、但也許很有意思的新實驗。你們到底怎么分算力?

      Jakub Pachocki:這會非常復雜,因為真的有太多事情要做。我們最近開始堅持的一條紀律,是明確地把一大塊算力預算留給那些最 scalable(可擴展)的方法,留給那些我們認為最能推動通用模型智能的東西。

      即便從某些時刻看,這也不一定是最有效率的分配方式。因為如果你把這么多算力都壓到一個實驗、或者一組實驗上,外面總會有很多地方,只要分一點算力過去,就能加快很多事。但問題是,如果你不這么做,很容易把算力全部切碎,最后反而沒有認真做成那些你自己最相信的重要工作。

      當然,你仍然要看經驗數據,要保證 eval 體系是完整的,實驗 rigor 是夠的。然后你也要給自己一點“正則化”:我們到底理解不理解這個方法?它真的有擴展性嗎?它能不能變成未來可持續構建的東西?還是只是一次性的?這些都會決定優先級。

      主持人:去年幾乎可以說是 coding 領域瘋狂爬坡的一年。Codex 當然也很成功,但 Anthropic 某種程度上在這個市場更早跑出來,Claude Code 一度是很強勢的產品。你怎么看 Anthropic 在這件事上的成功?

      Jakub Pachocki:我覺得這歸根到底是,你的產品方向有多聚焦在你認為下一階段技術最重要的應用上。

      如果回頭看 OpenAI 的產品優先級,我們當然也一直在做 coding 產品,但在很長一段時間里,它并不是最核心優先級。更有意思的是,這種產品優先級,并不完全反映 OpenAI 研究組織內部的優先級。

      因為從 ChatGPT 在 2023 年爆發之后,我們確實獲得了一個和我們長期愿景一致、也非常成功的產品,但它并不能代表這項技術全部能做的事情。所以研究組織的大部分工作,其實一直都在押更后面的那個未來方向。我覺得,研究優先級和短期產品策略之間的脫鉤,是越來越明顯的。

      我對我們在研究端、在模型智能端正在構建的東西非常有信心。而現在產品側的重新聚焦,本質上是在回答一個問題:怎么把它們真正部署出去,因為我們越來越相信,這些東西現在就已經是最重要的了。

      主持人:除了這些內部節奏,現在回頭看 OpenAI 這些年的變化,你會怎么概括?

      Jakub Pachocki:OpenAI 其實經歷了幾個階段。

      我 2017 年初加入時,它更像一個很學院派的實驗室,追很多不同想法,實際操作里也沒有那么“scaling-pilled”(俚語,意思是“被 scaling 洗腦了”)。第一次大的變化,是 Dota 和 GPT 這些項目把公司帶進了另一個階段:我們得買大機器、得擴展、得發展 scaling 的科學,也得發展支撐 scaling 的基礎設施。那之后,OpenAI 進入了“我們真的在 scale”這個階段。

      再往后,是 ChatGPT 這件大事。我原本以為,最先大規模起飛的會更像視頻那類生成式應用,文本模型反而會是要在長期研究里不斷取舍的一支。結果恰好相反,文本模型先成為了最先大規模進入現實的東西。與此同時,我們也很早就意識到,一定會出現這種張力:你已經有一個現在就很流行的產品,但你又相信它離最終要去的地方還遠,還會繼續變化。我覺得 OpenAI 過去一段時間一直處在這個階段。

      而現在,我們開始進入另一個階段:我們相信自己正在部署某種接近 AGI、或者至少已經具有巨大經濟變革性的系統。

      主持人:過去一年,你自己對 AI 世界最大的想法變化是什么?

      Jakub Pachocki:是我越來越在認真處理一個張力:你最終造出來的 AI,當然是作用于真實世界的;但在離那個階段還遠的時候,你又只能把它當作一個相對抽象的訓練對象、算法對象來推進。現在我的想法越來越偏向另一邊:我們必須更認真地考慮,這項技術到底怎么進入現實世界、怎么真正被部署。

      主持人:所以它會像 coding models 那樣,繼續變成日常生活的一部分?

      Jakub Pachocki:我覺得會。而且不只是能執行更長任務這么簡單,它還會逐漸變成一種可靠、可信賴的助手,甚至某種陪伴者。


      OpenAI 為何死活要“雪藏”思維鏈?

      主持人:你們在 AI for Science 這邊也做了很多事。比如 First Proofs 挑戰,對很多人來說可能沒有 coding 那么直觀。你能不能講講,為什么這類結果重要?

      Jakub Pachocki:我對 First Proofs 挑戰特別興奮。這個 benchmark 的設定很有意思:幾位受尊敬的數學家、理論計算機科學家,拿出一些他們認為接近自己日常工作的問題,這些題此前沒有發表出來,讓模型去真正試一試。

      那次挑戰來得很突然,幾乎沒有提前預告,只給了一周時間。偏偏那時候我們手上正好有一個非常令人興奮的模型訓練。于是負責訓練的 James Lee 就開始手工給這個模型喂 prompt,看看它到底能不能解這些題。然后我們就發現:它真的在解。

      其中有一道題,恰好來自我讀博士時所在的領域。你看到模型在一小時左右想出來的一些點子,是那種如果讓我自己花一兩周想出來,我也會很為之驕傲的點子。那種感覺非常奇怪。我上一次有這種感覺,還是看我們的 Dota bot 打出那些很離譜、很有創造性的 Dota 局面的時候。你會有一種近乎魔法的感覺:這種有意思的東西,本來不該無限地發生。

      所以,當這種事開始發生在數學上,發生在我認為更接近現實研究、更接近真正重要工作的地方時,我的緊迫感其實是被進一步推高了。

      主持人:過去大家總說,模型只是 pattern matcher(模式匹配器),不可能真正給科學帶來新想法。現在是不是已經開始動搖這個說法了?

      Jakub Pachocki:我覺得是的。你可以說,我們正在按計劃看到一些很小的推進:不是驚天動地的大突破,而是一個小點子、一點真正新東西,或者和科學家合作出來的一些更大的成果。

      但如果你回頭想,AlphaZero 是 pattern matcher 嗎?AlphaGo 是嗎?我們的 Dota bots 又算不算?它們都在自己的環境里發明過新策略。

      當然,你永遠可以說,這些系統都有漏洞,AlphaGo 也會被特定策略擊敗,Dota bots 也一樣。未來很長一段時間里,這些模型當然還會有各種不足。但我認為,它們確實能夠發現新東西。只是從早年那種封閉小環境,走到今天這樣更一般的科學研究,中間需要它們先吞下大量人類知識、先學會所有這些語言與表示而已。底層原則,其實是相通的。

      主持人:有人當時還說,你們給出的某些證明像 19 世紀數學一樣,偏 brute force(暴力破解),而不是現代數學更優雅的路線。這會讓你擔心嗎?

      Jakub Pachocki:不會,我覺得這是預期之中的事。至少在其中一道題上,我們的模型實際上給出了一個比原設想更短的漂亮證明。但更一般地說,模型短時間內能展開的推理量,本來就比人類大得多。所以我并不覺得那會是一個長期特征。

      主持人:如果再往前一步看,AI for Science 最終會是什么形態?是一個有物理世界接口的通用 LLM,還是會出現很多圍繞特定學科單獨構建的模型?

      Jakub Pachocki:我其實會沿用我剛才談 Codex 界面的那個答案:你應該圍繞一種技術的能力來建東西,而不是圍繞它的局限來建。

      如果你已經有了一個能大規模設計有趣化學實驗、生物實驗的系統,那當然值得為它搭建新的實驗室能力。但與此同時,就算模型很會設計實驗,也不代表你必須徹底把人排除出去。我們不應該把它想成一個二選一的問題——不是“要么完全自動化,要么只是個帶點工具的花哨系統”。更現實的圖景可能是,我們會進入一個人類和 AI 科學家一起工作、而且后者在設計和 ideation 里占比越來越高的世界。

      主持人:那在架構層面呢?會不會還是要分出很多專用模型,比如蛋白質折疊、材料科學這些方向?

      Jakub Pachocki:自然語言推理、我們現在優先擴展的這類能力,能帶來非常強的通用性。但也確實會有一些任務,更適合單獨訓練模型。比如如果你的目標只是做一個極強的圍棋模型,我并不覺得大語言模型是效率最高的路徑,盡管它最終也可能帶來最好的結果。蛋白質折疊這類問題,我覺得也有類似情況。

      主持人:我也想談談 AI safety。你們之前做過一項很有代表性的工作,就是 chain-of-thought monitoring(思維鏈監控)。能不能先講講,那到底是什么?

      Jakub Pachocki:這個想法,是在我們看到這一代推理模型第一次真正跑起來的時候形成的。那時我們在想:如果這件事成立,未來一兩年、兩三年,世界會發生什么變化?我們還能怎么理解這些模型到底在做什么?

      后來我們意識到,因為我們并不直接監督模型的推理過程,情況和普通對話模型很不一樣。ChatGPT 會被訓練得禮貌、得體,但推理模型的思維鏈并沒有被直接優化成某種固定樣子。它唯一被優化的,是怎樣更好地幫助模型產出高質量結果。

      所以,我們突然意識到,這可能正好提供了一個非常強的解釋窗口。它其實和機制可解釋性的邏輯并不遠:后者也是去觀察那些沒有被直接監督過的內部激活,因為那些激活可能會泄露模型真實的內部機制。

      只不過,思維鏈最大的優勢是:它默認就是英語。概念越復雜,這個優勢越明顯。與此同時,如果我們真的走到模型可以長時間自主運行、可以完成更長任務的未來,那么推理過程只會變得更多。于是,模型能力增強到哪里,我們對它進行監督和理解的窗口,也有機會一起擴展。

      主持人:但這里的關鍵前提,其實恰恰是你不能去監督思維鏈。

      Jakub Pachocki:對。這也是我們當初在發布 preview model 時決定隱藏思維鏈的主要原因。對我來說,這幾乎是最根本的理由。因為如果你在產品里公開展示它,遲早就得去訓練它。你會出于和訓練其他產品能力一樣的理由,開始要求它“說得更好”“更得體”“更適合公開看”。一旦這樣,那個窗口就被污染了

      我并不是說思維鏈本身一定不能被用戶以其他方式感知。比如我們現在會用一些思維鏈摘要,當作折中方案。再往后,也許更好的方式是模型在推理時實時跟你交流,最新一代 Codex 和 reasoning GPT 已經有一點這個味道,但我覺得還會繼續進化。

      真正讓我興奮的是,我們至少不用讓訓練信號和理解模型這件事直接對打。如果你一邊想理解模型長期會怎么想、動機會怎么變化,一邊又在大規模使用一種直接破壞這種可觀察性的訓練方式,你多半不會有好下場。

      所以,對我來說,這種“解耦”給了我一點希望。不是說它解決了長期對齊問題,它遠遠不是終極方案,但它是工具箱里非常關鍵的一件工具。它至少能幫助我們繼續向前推進,慢慢啃這些更根本的問題。

      主持人:除了思維鏈監控,還有哪些方向是你覺得值得押注的?

      Jakub Pachocki:更長期的對齊問題,本質上是泛化問題。

      我們當然能把模型訓練得在分布內表現得不錯,也能在那些我們明確訓練過的任務上大致控制它的行為。但真正讓人擔心的,是當模型碰到非常不一樣的任務、非常不一樣的環境,或者它比以前聰明得多、能力擴展得多時,會發生什么。我們其實并沒有真正學會怎么為那種情況訓練它。

      所以,從這個角度看,長期價值對齊研究,本質上是在研究泛化:模型最終會回落到什么價值上?在這件事上,我非常感興趣的一條研究線,是理解這種泛化和預訓練數據之間的關系。我們現在也在這上面投入很多。我覺得這里面還有很大空間。

      主持人:過去半年,你對對齊問題的擔憂是上升了還是下降了?

      Jakub Pachocki:如果只說長期挑戰,我的想法這幾年其實變了很多。以前我會覺得,這個問題太模糊了,甚至很難定義,更別說抓手;現在我越來越覺得,它其實是可以通過非常具體的技術路徑去推進的。所以我們才會把對齊當成研究的核心部分,而不是附屬品。

      也正因為如此,我對“這里有一條研究路徑,最終能把世界帶向一個非常好的狀態”這件事,信心是上升了很多的。與此同時,我對高能力模型的時間表也明顯提前了。我覺得我們離那種非常有變革性的模型已經不遠了。

      我不是說它們在所有方面都比我們聰明,但它們已經足夠強到改變很多事情。所以我一方面對我們持續掌握對齊進展、評估模型風險這件事還算樂觀;另一方面,我也認為整個行業都必須做好準備,在必要時真正接受妥協,甚至在看到某些信號時放慢開發速度。


      當“幾個人就能運轉一家超級公司”

      主持人:你剛才提到模型接入現實世界。那在機器人這件事上,你怎么看時間線?

      Jakub Pachocki:我覺得那里已經有一些非常有希望的算法想法,而且它們和我們現在所走的這套路線并沒有那么遠。所以我對機器人時間線是樂觀的,只不過我覺得它會比純虛擬世界里的 AI 稍微更慢一點

      主持人:說到更大的社會層面,你覺得今天整個社會最被低估的問題是什么?

      Jakub Pachocki:如果我們真的走到大量智力勞動都可以被自動化的階段,會出現一些非常大的問題,而且我不覺得這些問題有顯而易見的解法。

      最自然的一層,是工作崗位與財富集中。我懷疑這件事最后一定需要真正的 policymaker 介入。我也聽過一些比較樂觀的解法,但從根上說,如果某些過去很有價值、很昂貴、也承擔著重要功能的工作,突然能被很便宜地完成,長期看它當然可能是好事,可它也可能發生得非常快。

      還有一個相關問題是:如果你真的擁有一個自動化研究實驗室、一個自動化公司,它能做非常多事,卻只需要非常少的人控制,事情就會變得很不一樣。哪怕沒有機器人,這件事也已經足夠瘋狂;有了機器人,只會更夸張。

      所以,未來這些強大到驚人的組織到底該怎么治理?這些組織可能只由幾個人構成,卻擁有巨大的行動能力。我們該怎么理解這種東西?我覺得,這是一個整個社會都必須面對的新問題。

      主持人:說到這些新問題,我最近剛有了孩子,所以我也一直在想:十年后,他的生活會是什么樣?你離這件事這么近,AI 改變了你對下一代該怎么被撫養、該怎么接受教育的看法嗎?

      Jakub Pachocki:我覺得,我們所有人的任務,是把 AI 和這個世界一起建設成一種狀態:到頭來,仍然是人類擁有 agency,由人類來設定方向。

      也許今天我們很珍視的很多技術挑戰,未來會更像一種業余愛好——但這并不意味著人沒有事做。恰恰相反,人類的挑戰會越來越多地轉向另一類問題:什么是真正重要的?我們應該去做什么?

      如果世界能往那個方向去,我覺得人反而會擁有更多事情可做,而且是更多真正值得做、也更令人興奮的事。但與此同時,我依然覺得,人還是應該對技術有一定理解,不管這種基礎教育是通過什么方式獲得的,因為你得有能力去思考這些問題。

      主持人:這聽起來已經不是一個單純技術問題了。

      Jakub Pachocki:對。我覺得我們剛剛討論的這些問題,包括對齊、監控,都會越來越變成緊迫問題。而它們并不只是 AI 研究者自己的挑戰。它們當然是政策制定者的挑戰,也是整個社會需要一起想清楚的問題。現在已經開始出現一些討論了,但我覺得還遠遠不夠。


      【活動分享】"48 小時,與 50+ 位大廠技術決策者,共探 AI 落地真路徑。"奇點智能技術大會是由深耕多年的「全球機器學習技術大會」重磅升級而來。2026 奇點智能技術大會將于 4 月 17-18 日在上海環球港凱悅酒店正式召開,大會聚焦大模型技術演進、智能體系統工程、OpenClaw 生態實踐及 AI 行業落地等十二大專題板塊,特邀來自BAT、京東、微軟、小紅書等頭部企業的 50+ 位技術決策者分享實戰案例。旨在幫助技術管理者與一線 AI 落地人員規避選型風險、降低試錯成本、獲取可復用的工程方法論,真正實現 AI 技術的規模化落地與商業價值轉化。這不僅是一場技術的盛宴,更是決策者把握 2026 AI 拐點的戰略機會。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美智庫分析:殲-20雷達反射面為F-22百倍,戰略目標不同

      美智庫分析:殲-20雷達反射面為F-22百倍,戰略目標不同

      一網打盡全球焦點
      2026-05-15 03:38:00
      沃爾抽的狀元簽奇才轉賣!籃網11首輪報價,爵士快船已上談判桌

      沃爾抽的狀元簽奇才轉賣!籃網11首輪報價,爵士快船已上談判桌

      夜溟聊體育
      2026-05-15 10:32:12
      國安vs海牛:三外援PK三外援,塞鳥、張玉寧首發,林創益出戰

      國安vs海牛:三外援PK三外援,塞鳥、張玉寧首發,林創益出戰

      懂球帝
      2026-05-15 19:03:08
      75歲劉曉慶攜短劇《武則天傳奇》歸來,老搭檔毛戈平為其化妝,氣場一如當年

      75歲劉曉慶攜短劇《武則天傳奇》歸來,老搭檔毛戈平為其化妝,氣場一如當年

      科學發掘
      2026-05-15 14:01:48
      4-3晉級!3-2逆天改命,東部最大黑馬誕生,2換1交易賺大了

      4-3晉級!3-2逆天改命,東部最大黑馬誕生,2換1交易賺大了

      生活新鮮市
      2026-05-14 19:10:52
      和朋友一起 vs 和男朋友一起

      和朋友一起 vs 和男朋友一起

      東京新青年
      2026-05-14 16:29:56
      深圳一公司總裁離婚:分割近2億股權,98%股票過戶前妻

      深圳一公司總裁離婚:分割近2億股權,98%股票過戶前妻

      南方都市報
      2026-05-15 15:17:37
      特朗普回應馬斯克成立美國黨:荒謬

      特朗普回應馬斯克成立美國黨:荒謬

      銜春信
      2026-05-15 19:48:01
      馬斯克兒子的虎頭包,廣西繡娘純手工縫制,庫存大揭曉,廠家發聲

      馬斯克兒子的虎頭包,廣西繡娘純手工縫制,庫存大揭曉,廠家發聲

      煙潯渺渺
      2026-05-15 19:10:39
      邪門!少了30多萬中國人消費,日本的旅游收入反而比以前多了

      邪門!少了30多萬中國人消費,日本的旅游收入反而比以前多了

      壹只灰鴿子
      2026-05-13 10:44:56
      她是X媽媽,兒子惹人愛,4個月大即與馬斯克分手

      她是X媽媽,兒子惹人愛,4個月大即與馬斯克分手

      老沮系戲精北鼻
      2026-05-15 17:28:29
      這售價要超200萬了吧!消息稱華為、江淮、瑪莎拉蒂聯手造車:最快2027年見到“瑪界”

      這售價要超200萬了吧!消息稱華為、江淮、瑪莎拉蒂聯手造車:最快2027年見到“瑪界”

      快科技
      2026-05-14 11:54:52
      亮劍中趙剛死前透露:李云龍當年不顧降職也要斬山貓子是另有原因

      亮劍中趙剛死前透露:李云龍當年不顧降職也要斬山貓子是另有原因

      呆子的故事
      2026-02-09 14:19:33
      上層社會最怕窮人看到的九本書

      上層社會最怕窮人看到的九本書

      洞見
      2026-05-14 11:58:09
      英偉達H200獲批賣10家中國公司,但貨能不能到還得看中方臉色

      英偉達H200獲批賣10家中國公司,但貨能不能到還得看中方臉色

      別打我我投降
      2026-05-14 18:51:05
      無利空卻連跌!A股這波調整,到底是風險還是機會?

      無利空卻連跌!A股這波調整,到底是風險還是機會?

      徐sir財經
      2026-05-15 15:23:09
      重磅! 禁止PR領取澳洲17項福利, 只有公民能領! 還要大砍40%移民

      重磅! 禁止PR領取澳洲17項福利, 只有公民能領! 還要大砍40%移民

      澳微Daily
      2026-05-15 16:03:07
      美國人的覺醒:與中國人相比,我們過著狗屎般的生活?

      美國人的覺醒:與中國人相比,我們過著狗屎般的生活?

      老謝談史
      2026-04-08 22:56:46
      東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

      東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

      番外行
      2026-03-31 08:28:28
      恭喜!陳思誠又當爹!26歲小女友曬生日照,一臉孕相得到父母認可

      恭喜!陳思誠又當爹!26歲小女友曬生日照,一臉孕相得到父母認可

      八卦王者
      2026-05-14 11:39:43
      2026-05-15 20:23:00
      AI科技大本營 incentive-icons
      AI科技大本營
      連接AI技術的創造者和使用者
      2692文章數 7684關注度
      往期回顧 全部

      科技要聞

      兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      美媒詢問是否認為現在的美國是"衰落國家" 外交部回應

      頭條要聞

      美媒詢問是否認為現在的美國是"衰落國家" 外交部回應

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      教育
      房產
      旅游
      公開課
      軍事航空

      教育要聞

      上海外國語大學2026綜評,新增商務英語和外交學專業,同分拼校測

      房產要聞

      海口商業也是出息了!“友誼陽光城”,殺入北京最牛商街!

      旅游要聞

      首屆中國新文創市集暨潮玩游園會打造文旅消費新場景

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      烏克蘭首都基輔遭空襲 死亡人數增至12人

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日本少妇毛茸茸高潮| 超碰成人电影| 免费国产黄片视频在线观看| 成在人线av无码免费看网站直播| 国产精品久久蜜臀av| 欧美一区| 国产99re热这里只有精品| 国产免费极品av吧在线观看| 欧美不卡视频一区发布| 国产真实露脸精彩对白| 久青草六在线观看视频| 亚洲欧美日韩在线码| 人妻丝袜AV中文系列先锋影音| 永久免费mv入口| 国产成人免费高清在线观看| 亚洲精品国产专区91在线| 青青草视频免费观看| 看全色黄大黄大色免费久久| xxxx国产| 日本一卡二卡不卡视频查询| 日韩中文字幕精品视频在线 | 亚洲精品v天堂中文字幕| 久久黄色精品网站| 国产成人夜色高潮福利影视| 久久久久无码精品亚洲日韩 | 他掀开裙子把舌头伸进去添视频| 亚洲久久久久久| 亚洲色大成网站www永久| 97中文字幕在线| 天堂…在线最新版在线| 国产美女久久久亚洲综合| 暴雨被公侵犯的人妻3| 日本女同视频| 亚洲色婷婷综合开心网| 人人肏| 久久亚洲V无码专区成人| 亚洲V欧美V日韩V国产V| av边做边流奶水无码免费| 欧美老少配性行为| 国产老妇av| 久久精品国产6699国产精|