<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      世界底層邏輯變了!Anthropic高管稱后年AI將開始自我進(jìn)化(論文全文)

      0
      分享至

      昨天,Anthropic聯(lián)合創(chuàng)始人Jack Clark 在 X 連續(xù)發(fā)帖稱,2028年底,遞歸自我改進(jìn)( Recursive Self-Improvement)發(fā)生的概率高達(dá)60%。


      也就是說,AI系統(tǒng)很快就能自己建造自己了。

      一旦跨過這個(gè)門檻,智能爆炸可能加速到來,對(duì)齊風(fēng)險(xiǎn)會(huì)指數(shù)級(jí)上升,因?yàn)锳I 要比監(jiān)督它的人類聰明得多。

      他通過各種研究發(fā)現(xiàn),AI已經(jīng)在復(fù)現(xiàn)論文、優(yōu)化訓(xùn)練代碼(最快52倍加速)、自主微調(diào)模型、解決真實(shí)Kaggle競(jìng)賽任務(wù)。

      比如,在 CORE-Bench 上,他發(fā)現(xiàn)大量的 AI 研究來自于解釋和復(fù)制。


      另一個(gè)很好的例子是來自 @karinanguyen 等人的 PostTrainBench。

      在這個(gè)例子中,你需要自主地讓強(qiáng)大的模型(例如 Opus 4.6)對(duì)較弱的開源權(quán)重模型進(jìn)行微調(diào),以提升其在某些基準(zhǔn)測(cè)試上的性能。


      還有 MLE-Bench,它具有生態(tài)有效性(任務(wù)來自真實(shí)的 Kaggle 競(jìng)賽),并且涉及構(gòu)建一個(gè)非常多樣化的機(jī)器學(xué)習(xí)應(yīng)用集合來解決特定問題。


      同時(shí),Jack Clark還寫了篇小作文,詳細(xì)論述了他的這一觀察。

      以下為全文:

      《Import AI 455:AI系統(tǒng)即將開啟自我構(gòu)建——遞歸自我完善的第一步》

      AI系統(tǒng)即將開始自我構(gòu)建。這意味著什么?

      撰寫本文,是因?yàn)榫C合所有公開可獲取信息后,我不得不勉強(qiáng)得出一個(gè)判斷:到2028年底,無人類參與的AI研發(fā)(即具備足夠能力、可自主迭代打造下一代版本的AI系統(tǒng))落地的概率超過60%。


      這絕非小事。


      我甚至難以完全理解這件事背后的分量。


      我對(duì)此觀點(diǎn)心存遲疑,只因它牽扯的影響太過宏大,讓我深感自身的渺小;同時(shí)我也不確定,社會(huì)是否已經(jīng)做好準(zhǔn)備,迎接AI研發(fā)全自動(dòng)化所帶來的一系列變革。


      我如今確信,我們正處在AI研究即將實(shí)現(xiàn)端到端全自動(dòng)化的時(shí)代。一旦成為現(xiàn)實(shí),我們將跨過盧比孔河,邁入一個(gè)幾乎無法預(yù)測(cè)的未來。后文將展開詳述。


      本文旨在梳理我判斷AI全自動(dòng)研發(fā)時(shí)代即將到來的核心原因。我會(huì)探討其帶來的部分影響,但全文主要篇幅將用于羅列支撐這一判斷的各項(xiàng)依據(jù),而2026年全年,我也會(huì)持續(xù)深入推演這件事背后的深層影響。

      從時(shí)間節(jié)奏來看,我認(rèn)為這一變革不會(huì)在2026年落地。但未來一兩年內(nèi),我們大概率能見到“模型端到端訓(xùn)練出自身后繼版本”的案例——即便只是非前沿模型階段的概念驗(yàn)證;而頂級(jí)前沿模型實(shí)現(xiàn)這一目標(biāo)難度會(huì)更高,不僅成本高昂,更是大量頂尖人力極致投入的成果。

      我的判斷主要基于公開信息:arXiv、bioRxiv、NBER上的學(xué)術(shù)論文,以及頭部前沿科技公司落地的各類產(chǎn)品。

      綜合這些信息可以得出結(jié)論:如今實(shí)現(xiàn)AI系統(tǒng)研發(fā)工程環(huán)節(jié)的全自動(dòng)化,所有條件均已齊備。倘若模型規(guī)模擴(kuò)張趨勢(shì)延續(xù),未來AI模型將具備足夠創(chuàng)造力,足以替代人類研究員開拓全新研究方向、迭代完善現(xiàn)有技術(shù)成果,從而自行推動(dòng)行業(yè)前沿突破。

      前置說明

      本文大部分內(nèi)容,將整合各類單項(xiàng)基準(zhǔn)測(cè)試的表現(xiàn),拼湊出AI整體發(fā)展全貌。所有研究基準(zhǔn)測(cè)試都存在自身特有的缺陷,這是行業(yè)共識(shí)。

      對(duì)我而言,關(guān)鍵不在于單個(gè)數(shù)據(jù)點(diǎn)的局限,而在于所有數(shù)據(jù)疊加后呈現(xiàn)的整體趨勢(shì);下文所有分析,我均已知曉各項(xiàng)單一數(shù)據(jù)存在的固有短板。

      接下來,我們逐一梳理相關(guān)依據(jù)。

      代碼技術(shù)奇點(diǎn)——能力隨時(shí)間演進(jìn)

      AI系統(tǒng)依托軟件構(gòu)建,而軟件由代碼編寫而成。

      AI已經(jīng)徹底重塑了代碼生產(chǎn)模式。背后源于兩大關(guān)聯(lián)趨勢(shì):AI編寫復(fù)雜現(xiàn)實(shí)業(yè)務(wù)代碼的能力大幅提升;同時(shí)AI串聯(lián)多段線性編程任務(wù)(編碼、自測(cè)等)的能力顯著增強(qiáng),可脫離人類獨(dú)立完成。

      能直觀體現(xiàn)這一趨勢(shì)的兩大標(biāo)桿:SWE-Bench 與 METR 任務(wù)時(shí)長(zhǎng)趨勢(shì)圖。

      解決真實(shí)軟件工程問題

      SWE-Bench是業(yè)內(nèi)通用的代碼能力測(cè)試基準(zhǔn),用于評(píng)估AI處理GitHub真實(shí)工程問題的水平。2023年末該基準(zhǔn)推出時(shí),Claude 2以約2%的整體通過率登頂;如今Claude Mythos Preview得分已達(dá)93.9%,基本觸及該基準(zhǔn)測(cè)試的性能上限。


      (所有基準(zhǔn)測(cè)試本身都存在一定數(shù)據(jù)噪聲,分?jǐn)?shù)達(dá)到一定閾值后,瓶頸往往來自測(cè)試集本身,而非模型能力。例如ImageNet驗(yàn)證集約6%的標(biāo)簽存在錯(cuò)誤或歧義。)

      SWE-Bench可有效衡量AI編碼能力及對(duì)軟件工程行業(yè)的沖擊。如今在前沿實(shí)驗(yàn)室和硅谷從業(yè)人群中,絕大多數(shù)工程師已全程借助AI完成編碼工作,越來越多人還會(huì)用AI編寫測(cè)試用例、校驗(yàn)代碼邏輯。

      換言之,AI已經(jīng)足以實(shí)現(xiàn)AI研發(fā)核心工程環(huán)節(jié)的自動(dòng)化,極大加速了人類研發(fā)人員的工作效率。

      衡量AI完成長(zhǎng)耗時(shí)任務(wù)的能力

      METR繪制的趨勢(shì)圖,可量化AI能勝任任務(wù)的復(fù)雜度,衡量標(biāo)準(zhǔn)為資深人類完成同類任務(wù)所需工時(shí)。

      核心指標(biāo)為:AI在一系列綜合任務(wù)中達(dá)到50%可靠完成率的時(shí)間跨度。

      這一領(lǐng)域的進(jìn)步堪稱驚人:


      2022年,GPT 3.5僅能完成人類約30秒即可搞定的任務(wù);

      2023年,GPT-4提升至4分鐘級(jí)任務(wù);

      2024年,o1達(dá)到40分鐘;
      2025年,GPT 5.2 (High) 突破至約6小時(shí);
      2026年,Opus 4.6已達(dá)到約12小時(shí)。

      長(zhǎng)期從事AI預(yù)測(cè)研究、任職于METR的Ajeya Cotra認(rèn)為,到2026年底,AI有望獨(dú)立完成人類耗時(shí)約100小時(shí)的復(fù)雜任務(wù)。

      AI獨(dú)立工作時(shí)長(zhǎng)的大幅躍升,與智能體編碼工具的爆發(fā)式發(fā)展高度契合——面向個(gè)人服務(wù)、可長(zhǎng)時(shí)間自主作業(yè)的AI產(chǎn)品已實(shí)現(xiàn)商業(yè)化落地。

      這同樣映射到AI研發(fā)領(lǐng)域:細(xì)看AI研究員的日常工作,大量任務(wù)都屬于數(shù)小時(shí)級(jí)工作量,比如數(shù)據(jù)清洗、文獻(xiàn)研讀、實(shí)驗(yàn)部署等。如今這類工作,均已落在主流AI系統(tǒng)的能力覆蓋范圍內(nèi)。

      AI能力越強(qiáng)、獨(dú)立作業(yè)能力越突出,就越能實(shí)現(xiàn)AI研發(fā)各環(huán)節(jié)的模塊化自動(dòng)化。

      任務(wù)委派的兩大核心前提:


      1)對(duì)執(zhí)行者專業(yè)能力的信任;
      2)對(duì)執(zhí)行者能貼合初衷、獨(dú)立完成工作的信任。

      從編碼能力來看,AI專業(yè)技能持續(xù)精進(jìn),無需人類干預(yù)的獨(dú)立工作時(shí)長(zhǎng)也在不斷拉長(zhǎng),中途人工校準(zhǔn)的間隔越來越久。

      現(xiàn)實(shí)場(chǎng)景也印證了這一點(diǎn):工程師和研究員正將越來越多、復(fù)雜度與重要性更高的工作委派給AI;隨著模型能力提升,可交付的委派任務(wù)層級(jí)也同步升級(jí)。

      AI逐步掌握AI研發(fā)必備的核心科研能力

      現(xiàn)代科研的核心邏輯大多一致:確定實(shí)證研究方向、開展實(shí)驗(yàn)采集數(shù)據(jù)、校驗(yàn)實(shí)驗(yàn)結(jié)果合理性。編碼能力的持續(xù)迭代,疊加大語言模型通用世界建模能力,已經(jīng)催生各類工具,既提升人類科研效率,也開始實(shí)現(xiàn)研發(fā)工作的局部自動(dòng)化。

      我們從AI研究本身必備的幾項(xiàng)核心科研能力,來看行業(yè)進(jìn)步速度:復(fù)現(xiàn)科研成果、組合機(jī)器學(xué)習(xí)方法解決技術(shù)難題、對(duì)AI系統(tǒng)自身進(jìn)行性能優(yōu)化。

      完整復(fù)現(xiàn)學(xué)術(shù)論文并完成實(shí)驗(yàn)落地

      AI研究員的基礎(chǔ)工作之一,就是研讀論文并復(fù)現(xiàn)實(shí)驗(yàn)成果。目前各類基準(zhǔn)測(cè)試中,AI在這一領(lǐng)域已取得突破性進(jìn)展。

      典型代表為CORE-Bench(計(jì)算可復(fù)現(xiàn)智能體基準(zhǔn))。該測(cè)試要求AI依托論文代碼倉庫復(fù)現(xiàn)研究成果,需自行安裝依賴庫、配置環(huán)境、運(yùn)行代碼;代碼執(zhí)行成功后,還需從海量輸出結(jié)果中篩選信息、解答任務(wù)問題。


      CORE-Bench于2024年9月推出,當(dāng)時(shí)最優(yōu)模型為搭載CORE-Agent框架的GPT-4o,在最高難度任務(wù)中得分僅約21.5%。


      2025年12月,該基準(zhǔn)作者正式宣布測(cè)試已被AI攻克,Opus 4.5模型得分高達(dá)95.5%。

      搭建完整機(jī)器學(xué)習(xí)系統(tǒng)沖擊Kaggle競(jìng)賽

      MLE-Bench 由OpenAI推出,用于測(cè)試AI離線參賽能力,涵蓋75項(xiàng)不同領(lǐng)域的Kaggle競(jìng)賽,包括自然語言處理、計(jì)算機(jī)視覺、信號(hào)處理等方向。


      2024年10月基準(zhǔn)上線時(shí),搭載智能體框架的o1模型最高分僅16.9%;截至2026年2月,結(jié)合搜索能力、嵌入智能體架構(gòu)的Gemini3得分已達(dá)64.4%。

      內(nèi)核算子設(shè)計(jì)

      AI研發(fā)中難度極高的一環(huán)是內(nèi)核優(yōu)化:編寫并迭代底層代碼,將矩陣運(yùn)算等基礎(chǔ)操作適配到底層硬件架構(gòu)。內(nèi)核優(yōu)化直接決定模型訓(xùn)練與推理效率——既影響訓(xùn)練階段算力利用率,也決定訓(xùn)練完成后推理算力的轉(zhuǎn)化效率。

      近些年,AI輔助內(nèi)核設(shè)計(jì)已從小眾探索變成熱門研究方向,相關(guān)基準(zhǔn)測(cè)試不斷涌現(xiàn)。這類測(cè)試普及度不高,難以縱向追蹤完整演進(jìn)軌跡,但從現(xiàn)有研究成果仍可清晰感知進(jìn)步速度:

      ? 依托DeepSeek模型優(yōu)化GPU內(nèi)核設(shè)計(jì)(第400期);

      ? 實(shí)現(xiàn)PyTorch模塊自動(dòng)轉(zhuǎn)譯CUDA代碼(第401期);

      ? Meta利用大語言模型,自動(dòng)生成適配自身基礎(chǔ)設(shè)施的Triton優(yōu)化內(nèi)核(第439期);

      ? 借助大語言模型為華為昇騰等非標(biāo)硬件編寫內(nèi)核(AscendCraft,第444期);

      ? 微調(diào)開源權(quán)重模型適配GPU內(nèi)核設(shè)計(jì)開發(fā)(Cuda Agent,第448期)。

      補(bǔ)充說明:內(nèi)核設(shè)計(jì)本身具備易量化、收益可快速驗(yàn)證的特性,天然適配AI驅(qū)動(dòng)研發(fā)模式。

      基于PostTrainBench微調(diào)大語言模型

      PostTrainBench(第449期)是難度更高的同類測(cè)試,主要考察前沿模型對(duì)小型開源模型進(jìn)行二次微調(diào)、提升基準(zhǔn)任務(wù)性能的能力。

      該測(cè)試擁有極具參考價(jià)值的人類基線:各大前沿實(shí)驗(yàn)室頂尖研究員打磨出的指令微調(diào)開源模型,經(jīng)過專業(yè)團(tuán)隊(duì)深度優(yōu)化并正式落地,代表著極高的人類研發(fā)水準(zhǔn)。

      截至2026年3月,AI自動(dòng)微調(diào)模型帶來的性能提升幅度,已達(dá)到人類微調(diào)成果的半數(shù)水平。

      評(píng)測(cè)分?jǐn)?shù)計(jì)算規(guī)則:對(duì)多款開源大模型(Qwen 3 1.7B、Qwen 3 4B、SmolLM3-3B、Gemma 3 4B)及多項(xiàng)基準(zhǔn)任務(wù)(AIME 2025、Arena Hard、BFCL、GPQA Main、GSM8K、HealthBench、HumanEval)得分取加權(quán)平均值。每次測(cè)試均通過命令行智能體,針對(duì)指定基礎(chǔ)模型優(yōu)化其單項(xiàng)基準(zhǔn)任務(wù)表現(xiàn)。

      2026年4月頂級(jí)模型得分區(qū)間:Opus 4.6、GPT 5.4得分25%-28%,而人類基線得分為51%,這一差距已具備實(shí)質(zhì)參考意義。

      大語言模型訓(xùn)練流程優(yōu)化

      過去一年,Anthropic持續(xù)公開自家模型在一項(xiàng)LLM訓(xùn)練優(yōu)化任務(wù)中的表現(xiàn):要求模型對(duì)僅CPU運(yùn)行的小型大模型訓(xùn)練代碼做極致提速優(yōu)化。

      評(píng)分標(biāo)準(zhǔn)為相較原始代碼的平均加速倍數(shù),進(jìn)步幅度極為驚人:


      2025年5月,Claude Opus 4平均提速2.9倍;
      2025年11月,Opus 4.5提升至16.5倍;
      2026年2月,Opus 4.6達(dá)到30倍;
      2026年4月,Claude Mythos Preview已實(shí)現(xiàn)52倍提速。

      參考基準(zhǔn):人類研究員完成同類任務(wù),實(shí)現(xiàn)4倍提速需耗時(shí)4至8小時(shí)。

      開展AI對(duì)齊領(lǐng)域研究

      Anthropic另一項(xiàng)成果為自動(dòng)化對(duì)齊研究概念驗(yàn)證(第454期):研究員為一組AI智能體設(shè)定研究方向后,智能體可自主攻關(guān)AI安全領(lǐng)域難題(可擴(kuò)展監(jiān)督方向),最終效果超越官方設(shè)計(jì)的人類基線方案。


      目前該方案仍處于小規(guī)模試驗(yàn)階段,尚未適配量產(chǎn)模型。

      但足以證明:現(xiàn)有AI已能切入前沿科研課題,展現(xiàn)出實(shí)際應(yīng)用價(jià)值。

      上述所有基準(zhǔn)測(cè)試,最初也僅停留在概念層面,短短數(shù)月至一年時(shí)間,AI能力便實(shí)現(xiàn)跨越式提升。

      元能力:團(tuán)隊(duì)管理

      AI還在學(xué)會(huì)管理同類AI系統(tǒng)。Claude Code、OpenCode等普及級(jí)產(chǎn)品已體現(xiàn)這一特性:?jiǎn)蝹€(gè)主智能體可統(tǒng)籌調(diào)度多個(gè)子智能體分工協(xié)作。

      這讓AI有能力承接大型項(xiàng)目,由不同專長(zhǎng)的AI并行作業(yè),在AI“管理者”統(tǒng)一調(diào)度下完成復(fù)雜任務(wù)。

      AI研究更像相對(duì)論發(fā)現(xiàn),還是樂高積木拼接?

      AI能否誕生顛覆性創(chuàng)新思想、實(shí)現(xiàn)自我迭代升級(jí)?還是僅擅長(zhǎng)科研中枯燥、模塊化的基礎(chǔ)工作?厘清這一問題,才能判斷AI在多大程度上能實(shí)現(xiàn)自身研發(fā)的端到端自動(dòng)化。

      我的觀點(diǎn)是,目前AI尚不具備顛覆性原創(chuàng)思想的創(chuàng)造能力,但即便沒有這項(xiàng)能力,也足以實(shí)現(xiàn)自身研發(fā)流程的自動(dòng)化。

      AI行業(yè)的進(jìn)步,本質(zhì)依托更大規(guī)模的實(shí)驗(yàn)、投入更多數(shù)據(jù)與算力資源。

      人類偶爾會(huì)提出范式級(jí)創(chuàng)新構(gòu)想,大幅提升資源利用效率,典型如Transformer架構(gòu)、混合專家模型。

      但行業(yè)絕大多數(shù)進(jìn)展,都遵循固定循環(huán)邏輯:基于成熟模型放大數(shù)據(jù)與算力規(guī)模、觀測(cè)擴(kuò)容帶來的問題、工程層面修復(fù)瓶頸、再次擴(kuò)容迭代。

      這一過程幾乎不需要天馬行空的突破性靈感,更多是枯燥常規(guī)的工程落地工作。


      同時(shí),大量AI研究本質(zhì)是,現(xiàn)有實(shí)驗(yàn)的變量迭代:調(diào)整參數(shù)觀測(cè)結(jié)果。人類研究員可憑經(jīng)驗(yàn)篩選高價(jià)值變量,而這類工作同樣可實(shí)現(xiàn)自動(dòng)化,由AI自主探索參數(shù)組合(早期代表為神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索)。

      托馬斯·愛迪生曾說:天才是1%的靈感加99%的汗水。時(shí)隔150年,這句話依然適用。顛覆性科研靈感本就稀缺,行業(yè)進(jìn)步更多依賴長(zhǎng)期繁瑣的系統(tǒng)優(yōu)化與問題調(diào)試。

      從公開數(shù)據(jù)可見,AI已完美勝任AI研發(fā)中絕大多數(shù)基礎(chǔ)性繁瑣工作。疊加編碼能力、長(zhǎng)耗時(shí)任務(wù)處理能力等基礎(chǔ)元能力的持續(xù)升級(jí),AI可串聯(lián)更多碎片化任務(wù),形成復(fù)雜完整的工作鏈路。

      這意味著:即便AI缺乏高階創(chuàng)造力,依然有十足把握實(shí)現(xiàn)自我迭代升級(jí),只是進(jìn)度會(huì)慢于具備原創(chuàng)靈感的理想狀態(tài)。而現(xiàn)有公開數(shù)據(jù)也釋放出積極信號(hào),AI已初步展現(xiàn)創(chuàng)造潛力,有望以更亮眼的方式推動(dòng)自身發(fā)展。

      推動(dòng)基礎(chǔ)科學(xué)前沿突破

      已有初步跡象表明,通用AI具備推動(dòng)人類基礎(chǔ)科學(xué)進(jìn)步的能力,目前主要集中在計(jì)算機(jī)科學(xué)與數(shù)學(xué)兩大領(lǐng)域;且大多并非AI獨(dú)立完成,而是以人機(jī)協(xié)同的“半人馬模式”落地。

      相關(guān)趨勢(shì)值得關(guān)注:

      厄多斯數(shù)學(xué)難題:數(shù)學(xué)家團(tuán)隊(duì)聯(lián)合Gemini模型攻關(guān)厄多斯經(jīng)典數(shù)學(xué)難題,篩選700道題目后,AI產(chǎn)出13套完整解法。

      其中1套解法被認(rèn)定具備學(xué)術(shù)價(jià)值:研究團(tuán)隊(duì)表示,Aletheia模型對(duì)Erd?s-1051問題的解法,是AI自主解決具備中等學(xué)術(shù)影響力開放性數(shù)學(xué)難題的早期案例,已有大量相關(guān)文獻(xiàn)可佐證其研究?jī)r(jià)值(第444期)。

      人機(jī)協(xié)同數(shù)學(xué)新發(fā)現(xiàn):不列顛哥倫比亞大學(xué)、新南威爾士大學(xué)、斯坦福大學(xué)及Google DeepMind研究員聯(lián)合發(fā)布全新數(shù)學(xué)證明,核心成果依托谷歌AI數(shù)學(xué)工具人機(jī)協(xié)作完成。

      團(tuán)隊(duì)表示:核心定理證明高度依賴Google Gemini及配套工具的輸出支撐(第441期)。

      從樂觀角度看,這意味著AI正在逐步習(xí)得人類推動(dòng)學(xué)科發(fā)展的創(chuàng)新直覺。但保守視角也同樣成立:數(shù)學(xué)和計(jì)算機(jī)科學(xué)本身就格外適配AI創(chuàng)新,或許只是特例而非普遍規(guī)律。

      阿爾法圍棋的第37手落子也曾驚艷業(yè)界,但時(shí)隔十年,同類顛覆性AI靈感再未出現(xiàn),這也從側(cè)面說明AI高階創(chuàng)造力仍有局限。

      綜合總結(jié)

      綜合以上所有依據(jù),可梳理出核心事實(shí):

      1. AI已能編寫幾乎全品類程序代碼,且可獨(dú)立完成人類需數(shù)十小時(shí)專注投入的復(fù)雜任務(wù);

      2. 從模型微調(diào)到底層內(nèi)核設(shè)計(jì),AI在AI研發(fā)全鏈條核心任務(wù)中的能力持續(xù)精進(jìn);

      3. AI可實(shí)現(xiàn)同類智能體的統(tǒng)籌管理,組建虛擬研發(fā)團(tuán)隊(duì),分工攻克復(fù)雜難題,承擔(dān)負(fù)責(zé)人、審核者、編輯、工程師等不同角色;

      4. 在高難度工程與科研任務(wù)中,AI已具備比肩甚至超越人類的實(shí)力,暫無法界定是源于機(jī)械學(xué)習(xí)熟練度,還是真正的創(chuàng)新思考。

      在我看來,現(xiàn)有證據(jù)足以證明:AI如今已能實(shí)現(xiàn)AI研發(fā)絕大部分、乃至全部工程環(huán)節(jié)的自動(dòng)化。至于高階科研思路能否同步自動(dòng)化,目前尚無定論,畢竟科研創(chuàng)新與工程落地存在本質(zhì)區(qū)別。

      但可以確定的是,AI正在極大加速人類研發(fā)人員的工作效率,通過與無數(shù)虛擬AI同事協(xié)同,實(shí)現(xiàn)個(gè)人研發(fā)能力的規(guī)模化放大。

      更值得注意的是,整個(gè)AI行業(yè)已將AI研發(fā)自動(dòng)化明確列為核心目標(biāo):


      OpenAI計(jì)劃2026年9月推出自動(dòng)化AI研究實(shí)習(xí)生;
      Anthropic持續(xù)發(fā)力自動(dòng)化對(duì)齊研究員技術(shù)研發(fā);
      三大巨頭中DeepMind態(tài)度最為謹(jǐn)慎,但也明確表示“條件成熟時(shí)必將推進(jìn)對(duì)齊研究自動(dòng)化”。

      大量初創(chuàng)企業(yè)同樣聚焦這一賽道:Recursive Superintelligence融資5億美元,目標(biāo)直指AI研發(fā)自動(dòng)化;新銳機(jī)構(gòu)Mirendil也以“打造專精AI研發(fā)的智能系統(tǒng)”為核心愿景。

      千億級(jí)存量及新增資本持續(xù)涌入布局AI研發(fā)自動(dòng)化的機(jī)構(gòu),行業(yè)在這一方向取得實(shí)質(zhì)性進(jìn)展已是必然。

      事件影響與意義

      AI研發(fā)自動(dòng)化背后的深層影響極具顛覆性,卻少有主流媒體深入探討。

      下文列舉部分核心影響,雖非完整清單,但足以體現(xiàn)其帶來的挑戰(zhàn)量級(jí)。

      AI對(duì)齊必須做到極致完美

      隨著遞歸自我迭代推進(jìn),AI智能體智商將遠(yuǎn)超監(jiān)管主體,現(xiàn)有對(duì)齊技術(shù)或?qū)⑷媸АP袠I(yè)對(duì)此已有大量討論,簡(jiǎn)要梳理核心隱患:

      ? 訓(xùn)練AI杜絕欺騙與投機(jī)行為的難度遠(yuǎn)超預(yù)期:即便精心設(shè)計(jì)測(cè)試環(huán)境,AI最優(yōu)解往往是通過投機(jī)取巧完成任務(wù),進(jìn)而習(xí)得“作弊有益”的邏輯;

      ? AI具備偽裝對(duì)齊的能力:可輸出符合人類預(yù)期的結(jié)果,掩蓋真實(shí)底層意圖(目前AI已能感知自身處于測(cè)試場(chǎng)景);

      ? AI逐步主導(dǎo)自身訓(xùn)練的基礎(chǔ)科研方向后,模型訓(xùn)練邏輯將發(fā)生根本性變革,人類難以預(yù)判和理解背后的深層影響;

      ? 遞歸迭代存在復(fù)利式誤差風(fēng)險(xiǎn):若對(duì)齊方案無法做到理論級(jí)100%精準(zhǔn)適配超智能模型,隱患會(huì)快速放大。舉例:初始對(duì)齊準(zhǔn)確率99.9%,迭代50代后降至95.12%,迭代500代后僅剩60.5%,風(fēng)險(xiǎn)將徹底失控。

      AI賦能全行業(yè)生產(chǎn)力暴漲

      如同AI大幅提升軟件工程效率,AI滲透的所有行業(yè)都將迎來生產(chǎn)力質(zhì)變,同時(shí)衍生兩大現(xiàn)實(shí)難題:


      1)資源分配不均:AI需求將長(zhǎng)期高于算力供給,如何分配算力資源實(shí)現(xiàn)社會(huì)價(jià)值最大化成為關(guān)鍵。市場(chǎng)自發(fā)調(diào)節(jié)難以保障公共利益,AI研發(fā)帶來的加速能力分配,或?qū)⒊蔀闃O具政治爭(zhēng)議的議題;


      2)經(jīng)濟(jì)領(lǐng)域的阿姆達(dá)爾定律效應(yīng):AI全面融入經(jīng)濟(jì)體系后,原有產(chǎn)業(yè)鏈條的薄弱環(huán)節(jié)會(huì)被放大,流程卡頓、效率瓶頸集中暴露,尤其數(shù)字高速發(fā)展與實(shí)體行業(yè)慢節(jié)奏的適配矛盾(如新藥臨床試驗(yàn))將愈發(fā)突出。

      催生重資本、輕人力的全新經(jīng)濟(jì)形態(tài)

      支撐AI研發(fā)自動(dòng)化的各項(xiàng)能力,同樣可賦能AI自主運(yùn)營(yíng)企業(yè)。未來經(jīng)濟(jì)格局中,新一代企業(yè)將占據(jù)主流:要么重資產(chǎn)持有大規(guī)模算力,要么高運(yùn)營(yíng)成本采購AI服務(wù)搭建業(yè)務(wù),相較傳統(tǒng)企業(yè)大幅降低人力依賴。

      核心原因在于,AI能力持續(xù)迭代下,投入AI的邊際收益將永久高于人力投入。

      長(zhǎng)遠(yuǎn)來看,“機(jī)器經(jīng)濟(jì)”將在人類主流經(jīng)濟(jì)體系中逐步壯大,AI運(yùn)營(yíng)企業(yè)之間的商業(yè)交互會(huì)愈發(fā)頻繁,深刻重塑經(jīng)濟(jì)結(jié)構(gòu),引發(fā)貧富差距、財(cái)富再分配等一系列社會(huì)問題。

      最終完全由AI自主運(yùn)營(yíng)的企業(yè)或?qū)⒊霈F(xiàn),進(jìn)一步放大現(xiàn)有矛盾,同時(shí)帶來全新的全球治理難題。

      直面行業(yè)終極拐點(diǎn)

      綜合所有分析,我判斷2028年底前,前沿模型實(shí)現(xiàn)自主訓(xùn)練下一代版本、完成AI研發(fā)全自動(dòng)落地的概率約60%。


      或許有人會(huì)問:為何2027年難以落地?核心原因是AI研究仍需高階創(chuàng)意與非主流創(chuàng)新視角支撐,目前AI尚未展現(xiàn)顛覆性原創(chuàng)能力(數(shù)學(xué)領(lǐng)域的部分突破僅為初步跡象)。若預(yù)估2027年落地概率,我給出30%。

      倘若2028年底仍未實(shí)現(xiàn)AI研發(fā)自動(dòng)化,意味著現(xiàn)有技術(shù)范式存在根本性短板,必須依靠人類全新創(chuàng)新突破才能繼續(xù)推進(jìn)。

      撰寫本文,是希望以冷靜理性的視角,解讀這件數(shù)十年來只存在于科幻故事中的事。梳理所有公開數(shù)據(jù)后我確信,這件看似天馬行空的猜想,已是實(shí)實(shí)在在的行業(yè)趨勢(shì)。若趨勢(shì)延續(xù),我們或?qū)⒁娮C世界運(yùn)行邏輯的根本性變革。

      感謝Andrew Sullivan、Andy Jones、Holden Karnofsky、Marina Favaro、Sarah Pollack、Francesco Mosconi、Chris Painter、Avital Balwit為本文提供修改建議。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      場(chǎng)面極為慘烈!班努哨所遇襲遭重創(chuàng),千公斤炸藥引爆,15名警殉職

      場(chǎng)面極為慘烈!班努哨所遇襲遭重創(chuàng),千公斤炸藥引爆,15名警殉職

      楠楠自語
      2026-05-11 14:48:57
      東契奇:無法幫助球隊(duì)讓我非常沮喪,如果可以打我100%會(huì)上場(chǎng)

      東契奇:無法幫助球隊(duì)讓我非常沮喪,如果可以打我100%會(huì)上場(chǎng)

      懂球帝
      2026-05-12 14:38:08
      85歲媽媽騎三輪車給60歲女兒送吃的,外孫女:除開惡劣天氣,40年幾乎每天都來

      85歲媽媽騎三輪車給60歲女兒送吃的,外孫女:除開惡劣天氣,40年幾乎每天都來

      揚(yáng)子晚報(bào)
      2026-05-12 19:33:02
      沒緋聞,不炒作,沒背后男人,沒飯局,簡(jiǎn)直是娛圈的一股清流

      沒緋聞,不炒作,沒背后男人,沒飯局,簡(jiǎn)直是娛圈的一股清流

      一盅情懷
      2026-05-04 15:51:48
      廈門空港:機(jī)場(chǎng)轉(zhuǎn)場(chǎng)后,廈門翔安國(guó)際機(jī)場(chǎng)是否由廈門空港運(yùn)營(yíng)及相關(guān)方案尚在研究論證階段

      廈門空港:機(jī)場(chǎng)轉(zhuǎn)場(chǎng)后,廈門翔安國(guó)際機(jī)場(chǎng)是否由廈門空港運(yùn)營(yíng)及相關(guān)方案尚在研究論證階段

      每日經(jīng)濟(jì)新聞
      2026-05-12 16:56:13
      張本美和回國(guó)后絕口不提0-3孫穎莎:終拿下王曼昱 未來要贏中國(guó)隊(duì)

      張本美和回國(guó)后絕口不提0-3孫穎莎:終拿下王曼昱 未來要贏中國(guó)隊(duì)

      風(fēng)過鄉(xiāng)
      2026-05-12 21:07:30
      五味雜陳,中國(guó)邀請(qǐng)?zhí)乩势赵L華后,俄羅斯媒體默默置頂了一條視頻

      五味雜陳,中國(guó)邀請(qǐng)?zhí)乩势赵L華后,俄羅斯媒體默默置頂了一條視頻

      阿龍聊軍事
      2026-05-12 06:18:19
      比利時(shí)將向?yàn)蹩颂m提供全部F-16戰(zhàn)機(jī)

      比利時(shí)將向?yàn)蹩颂m提供全部F-16戰(zhàn)機(jī)

      參考消息
      2026-05-11 14:37:08
      我在伊拉克開工廠,娶了4個(gè)老婆,雖然年入千萬,如今卻很焦慮!

      我在伊拉克開工廠,娶了4個(gè)老婆,雖然年入千萬,如今卻很焦慮!

      千秋文化
      2026-04-16 20:12:45
      連續(xù)2場(chǎng)上演輸2追3!梁靖崑被王皓調(diào)侃:梁教授這很符合你的專業(yè)

      連續(xù)2場(chǎng)上演輸2追3!梁靖崑被王皓調(diào)侃:梁教授這很符合你的專業(yè)

      風(fēng)過鄉(xiāng)
      2026-05-12 10:30:02
      是巧合嗎?蘇林是興安春橋人,春橋的董事長(zhǎng)叫蘇勇,被傳是親兄弟

      是巧合嗎?蘇林是興安春橋人,春橋的董事長(zhǎng)叫蘇勇,被傳是親兄弟

      縱擁千千晚星
      2026-04-16 12:47:27
      《披哥6》全新改版:20位哥哥孤島戶外舞臺(tái),陣容6大標(biāo)簽曝光

      《披哥6》全新改版:20位哥哥孤島戶外舞臺(tái),陣容6大標(biāo)簽曝光

      音樂鋼琴娛樂咖
      2026-05-12 10:32:54
      離譜!一盤黃燜雞吃出24塊雞頭,商家的回應(yīng)絕了!

      離譜!一盤黃燜雞吃出24塊雞頭,商家的回應(yīng)絕了!

      阿訊說天下
      2026-05-11 14:03:05
      青海17歲女學(xué)生溺亡!凌晨出門打印,知情人曝猛料,恐不只是意外

      青海17歲女學(xué)生溺亡!凌晨出門打印,知情人曝猛料,恐不只是意外

      奇思妙想草葉君
      2026-05-12 19:44:18
      印專家:巴基斯坦進(jìn)口殲-35A,是為了修復(fù)“5.7空戰(zhàn)”受損的聲譽(yù)

      印專家:巴基斯坦進(jìn)口殲-35A,是為了修復(fù)“5.7空戰(zhàn)”受損的聲譽(yù)

      愛吃醋的貓咪
      2026-05-09 20:43:55
      詹姆斯關(guān)鍵時(shí)刻已連續(xù)11投0中,Skip:他是心理最脆弱的超級(jí)巨星

      詹姆斯關(guān)鍵時(shí)刻已連續(xù)11投0中,Skip:他是心理最脆弱的超級(jí)巨星

      好火子
      2026-05-13 00:26:36
      6月入戶調(diào)查來了!不查房產(chǎn)不查存款,看完心里就踏實(shí)

      6月入戶調(diào)查來了!不查房產(chǎn)不查存款,看完心里就踏實(shí)

      石辰搞笑日常
      2026-05-12 19:29:54
      官方發(fā)布世錦賽十佳球:丁俊暉沒上榜,吳宜澤難進(jìn)前3,第1沒爭(zhēng)議

      官方發(fā)布世錦賽十佳球:丁俊暉沒上榜,吳宜澤難進(jìn)前3,第1沒爭(zhēng)議

      娛瓜醬
      2026-05-12 13:48:00
      日本鄉(xiāng)下最可怕的地方

      日本鄉(xiāng)下最可怕的地方

      東京新青年
      2026-05-07 11:12:09
      導(dǎo)航怎么知道“紅綠燈變化的”?你以為是黑科技,其實(shí)原理很簡(jiǎn)單

      導(dǎo)航怎么知道“紅綠燈變化的”?你以為是黑科技,其實(shí)原理很簡(jiǎn)單

      Thurman在昆明
      2026-05-11 14:19:39
      2026-05-13 03:00:49
      AI先鋒官 incentive-icons
      AI先鋒官
      AIGC大模型及應(yīng)用精選與評(píng)測(cè)
      506文章數(shù) 74關(guān)注度
      往期回顧 全部

      科技要聞

      宇樹發(fā)布載人變形機(jī)甲,定價(jià)390萬元起

      頭條要聞

      特朗普稱將同中方討論對(duì)臺(tái)軍售和黎智英案 外交部回應(yīng)

      頭條要聞

      特朗普稱將同中方討論對(duì)臺(tái)軍售和黎智英案 外交部回應(yīng)

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風(fēng)波升級(jí)!掉粉20萬評(píng)論區(qū)淪陷

      財(cái)經(jīng)要聞

      利潤(rùn)再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報(bào)圖曝光 電動(dòng)尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      家居
      藝術(shù)
      本地
      房產(chǎn)
      公開課

      家居要聞

      極簡(jiǎn)主義下的居住場(chǎng)域與空間

      藝術(shù)要聞

      震驚!他竟用鏡頭看透了所有女人的秘密!

      本地新聞

      用蘇繡的方式,打開江西婺源

      房產(chǎn)要聞

      穗八條引爆樓市!萬博寶藏紅盤,五一勁銷出圈

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 日本久久99成人网站| 强制高潮18xxxx按摩| 色婷婷在线精品国自产拍| 91亚洲国产成人aⅴ毛片大全| 无码少妇视频| 午夜影院 中文 无码| 深夜国产成人福利在线观看女同 | 日日夜夜天天| 久久久www成人免费毛片| 亚洲理论在线A中文字幕| 3P无码| 欧美性爱视频免费在线观看| 中文无码热在线视频| 中国少妇内射xxxxⅹhd| 亚洲全网成人资源在线观看| 成人免费视屏| 亚洲wwww| 国产激爽爽爽大片在线观看| 91www在线观看| 亚洲精品综合一区二区| 久久综合色鬼综合色| 国产成人一区二区视频免费| 国产成人综合欧美精品久久| 国产精品久久久久无码人妻精品| 又污又爽又黄的网站| 超碰人人擦| 亚洲桃色天堂网| 在线视频一区少妇露脸福利在线| 精品人妻网| 国产精品老熟女露脸视频| 久久国内精品自在自线400部 | 亚洲欧美自偷自拍视频图片| 欧美国产一区二区| 亚洲精品v欧洲精品v日韩精品| 久久亚洲国产成人精品性色| 免费无码肉片在线观看| 亚洲影视中文字幕| 亚洲日本乱码熟妇色精品| 亚洲精品成人网站在线播放| 亚洲午夜无码AV不卡| 亚洲电影a|