<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      DeepSeek研究員讓AI自己研究自己!AI執(zhí)筆99%,6天搞定45頁論文

      0
      分享至


      智東西
      作者 程茜
      編輯 李水青

      DeepSeek和GPT合體寫論文了!

      智東西5月27日報道,昨晚,DeepSeek資深研究員陳德里(Deli Chen)放出一篇他和Agent合寫的45頁論文,其中99%內(nèi)容都是CodeAgent所寫。

      論文題目是《從Copilots到同事:自主科研智能體綜述(From Copilots to Colleagues:A Survey of Autonomous Research Agents)》,作者是陳德里、DeepSeek-V4-Pro、GPT-Image2。


      陳德里還特意發(fā)了免責聲明:這篇論文絕非嚴謹學(xué)術(shù)論文、不代表任何公司或組織觀點,只是出于興趣以及順便測試下他搭建的DeliAutoResearch。


      他透露,論文共迭代6次,耗時6天搞定,而初稿僅用了76分鐘。期間智能體累計運行約108輪、消耗Token約64.8萬、LaTeX代碼共2234行,最終成品45頁,其中包含7個圖標、4個表格,文件大小538KB。陳德里也不禁感嘆,同樣的工作以前至少需要一個月才能完成,而這次他本人的“CPU運轉(zhuǎn)時長”不到2小時。

      陳德里是DeepSeek-V1、V2、V3、V4、DeepSeek-R1、DeepSeek-Coder、DeepSeek-MoE架構(gòu)的核心貢獻者,他曾獲得北京大學(xué)信息管理學(xué)士學(xué)位及計算機科學(xué)碩士學(xué)位,曾在騰訊擔任微信AI研究員。


      這篇論文梳理了機器學(xué)習(xí)、軟件工程、科學(xué)發(fā)現(xiàn)三大領(lǐng)域共計105篇相關(guān)文獻,陳德里稱已經(jīng)對這些文獻進行了驗證。其核心目的是為能夠自主開展研究的AI智能體提供統(tǒng)一的分析框架,主要有四項研究成果:

      1、提出一套五級自主能力分級體系(L1–L5),層級從代碼自動補全延伸至完全自主制定研究規(guī)劃,為各類系統(tǒng)的界定與對比提供規(guī)范的術(shù)語標準。

      2、剖析了四大主流架構(gòu)模式:單智能體循環(huán)、多智能體協(xié)作、分層調(diào)度編排、工具增強執(zhí)行;同時搭建對比分析框架,評估各類架構(gòu)在可擴展性、成本、穩(wěn)定性及人工監(jiān)管方面的優(yōu)劣取舍。

      3、基于六維特征矩陣,對17款主流系統(tǒng)展開分析。研究結(jié)果表明,當前前沿系統(tǒng)普遍處于L4級別(限定領(lǐng)域內(nèi)可完成多步驟自主執(zhí)行),而L5級別仍停留在目標構(gòu)想階段。

      4、梳理出六大核心待解難題:認知死循環(huán)、上下文窗口限制、創(chuàng)新價值評估、結(jié)果可復(fù)現(xiàn)性、安全風險與使用成本,并針對每項難題給出具體研究方向。

      其研究分析發(fā)現(xiàn),實現(xiàn)L5級自主能力的核心瓶頸并非模型基礎(chǔ)性能,而是在于長效知識沉淀、可靠的自我評估能力,以及具備理論支撐的智能體架構(gòu)規(guī)模化方案三大難點。

      不少開發(fā)者紛紛在陳德里的評論區(qū)下面求開源。


      論文:https://victorchen96.github.io/auto_research_survey.pdf

      一、當前系統(tǒng)多為能獨立產(chǎn)出論文的L4級,已有系統(tǒng)展現(xiàn)出L5級特征

      論文將自主研究智能體定義為:一類軟件系統(tǒng),在接收到高層級研究目標后,能夠獨立執(zhí)行科學(xué)探究的迭代閉環(huán),包括假設(shè)生成、實驗設(shè)計、執(zhí)行、分析與迭代優(yōu)化,且在執(zhí)行流程中僅需極少、甚至完全無需人工干預(yù)。

      自主研究智能體的五級自主能力分級體系(L1–L5),是基于兩個維度:

      一是智能體可對什么內(nèi)容獨立做出決策,二是智能體在無需人工審核介入的情況下,可持續(xù)自主運行多久。


      L1的典型代表是GitHub Copilot等代碼補全工具,這一層級中智能體可運行單個token或單行文本,核心能力是對人類撰寫文本后續(xù)內(nèi)容的預(yù)測,且人類完全主導(dǎo)內(nèi)容的方向、結(jié)構(gòu)與正確性。

      論文中提到,從CodeX演化而來的代碼補全模型,在受控編碼任務(wù)中可實現(xiàn)30%-55%的效率提升,但無法獨立完成多步驟目標。

      L2的代表是帶插件的ChatGPT、支持工具調(diào)用的Claude等對話式AI助手,智能體能夠?qū)⒍x清晰的任務(wù)拆解為多個步驟并執(zhí)行,但每一步都需要人工的顯式或隱式審批。

      其能力包括網(wǎng)頁搜索、代碼執(zhí)行、信息整合,全程需要人類引導(dǎo)對話、驗證中間結(jié)果。

      L3是代碼智能體,這之中,智能體可自主執(zhí)行10-100個連續(xù)動作,僅在預(yù)設(shè)的檢查點、或遇到不確定情況時,才請求人工審核。其能自主查看代碼倉庫、編輯文件,無需人類逐步驟審批。

      L3與L2級的核心區(qū)別在于:智能體可自主做出決策,例如選擇編輯哪個文件、如何修復(fù)測試失敗,無需逐步驟獲得人工批準;人類僅保留監(jiān)督權(quán)。

      L4的代表是AI Scientist系統(tǒng)、Devin、SWE-Agent等,可自主生成研究思路、撰寫論文、運行實驗、產(chǎn)出完整論文,甚至完成自動化同行評審,全流程無人工干預(yù)。

      這一層級的智能體接收到研究目標后,可獨立運行數(shù)小時至數(shù)天,包括自主從故障中恢復(fù)、迭代優(yōu)化策略、最終產(chǎn)出完整的研究成果。人類僅需評估最終輸出結(jié)果,無需全程監(jiān)督執(zhí)行過程。

      L5是自主能力的最高等級,智能體不僅能執(zhí)行研究任務(wù),還能自主選擇研究問題、在多個項目間分配資源、基于過往成果持續(xù)迭代。

      其研究顯示目前尚無系統(tǒng)達到這一層級,可自主生成難度遞增任務(wù)學(xué)習(xí)課程的智能體Voyager,可基于過往成功程序迭代發(fā)現(xiàn)新數(shù)學(xué)構(gòu)造的智能體FunSearch已經(jīng)展現(xiàn)出了L5的部分特征。


      二、四大主流架構(gòu)可適配不同層級系統(tǒng)

      論文歸納了四大主流架構(gòu)模式:單智能體循環(huán)(ReAct/Reflexion)、多智能體協(xié)作(MetaGPT/AutoGen)、分層編排(Supervisor-Worker)、工具增強執(zhí)行(CodeAct)。


      單智能體循環(huán)(ReAct/Reflexion):這是自主智能體中最簡單、應(yīng)用最廣泛的基礎(chǔ)架構(gòu),由單個語言模型迭代執(zhí)行“觀察環(huán)境→推理下一步動作→執(zhí)行動作→吸收反饋”的閉環(huán)流程,是絕大多數(shù)L3-L4級系統(tǒng)的核心架構(gòu)。

      盡管架構(gòu)設(shè)計簡單,但它是絕大多數(shù)L3-L4級系統(tǒng)的核心骨架,且在推理策略上存在大量可優(yōu)化、可變化的空間,適配性極強。

      多智能體協(xié)作(MetaGPT/AutoGen):多智能體系統(tǒng)可以將任務(wù)責任拆分給多個專業(yè)化智能體,通過智能體間的通信與協(xié)作完成目標。

      分層編排(Supervisor-Worker):隨著任務(wù)復(fù)雜度不斷提升,扁平化的多智能體通信模式會逐漸失效,分層編排引入了明確的監(jiān)督管控關(guān)系:由一個高層監(jiān)督者智能體負責拆解任務(wù),將子任務(wù)分配給專業(yè)化的執(zhí)行者智能體,同時監(jiān)控任務(wù)進度,并在必要時介入調(diào)整。

      最后是工具增強執(zhí)行(CodeAct):這是自主研究智能體的核心標志性特征,是其與外部工具、外部環(huán)境交互的能力。工具增強執(zhí)行將語言模型從被動的文本生成器,轉(zhuǎn)變?yōu)橛嬎闩c物理工作流中的參與者,再加上其可以外接代碼、實驗、網(wǎng)頁,能力上限最高。


      總的來看,L2級系統(tǒng)用簡單的單智能體循環(huán)即可高效運行,L3級系統(tǒng)采用Reflexion,可天然嵌入檢查點機制,收益最大,L4級系統(tǒng)通常需要分層編排架構(gòu),搭配自主迭代優(yōu)化,才能在長時間自主運行中維持輸出質(zhì)量,理論上的L5級系統(tǒng)大概率需要具備自重組能力的圖結(jié)構(gòu)架構(gòu)才能實現(xiàn)。

      三、三大結(jié)論:開閉源差距收窄,專用智能體超越通用,代碼智能體最成熟

      基于六維特征矩陣,論文對17款主流系統(tǒng)展開分析,六維特征包括前文提到的L1-L5自主等級、核心應(yīng)用領(lǐng)域、架構(gòu)模式、工具集成廣度、評測方法論、開源屬性。


      其得到三大結(jié)論:

      首先更聚焦某一領(lǐng)域的系統(tǒng),能力上限更高,其中,代碼智能體在所有維度中表現(xiàn)最優(yōu),受益于自動化評測體系、成熟的工具環(huán)境、大規(guī)?;鶞蕼y試的支撐,是當前行業(yè)最成熟的賽道。

      其次領(lǐng)域?qū)S弥悄荏w全面超越通用智能體,SWE-Agent、Coscientist、FunSearch等L4級系統(tǒng)均通過收縮應(yīng)用范圍實現(xiàn)了穩(wěn)定輸出,AutoGPT、BabyAGI等通用智能體,始終無法在多樣化任務(wù)中實現(xiàn)穩(wěn)定的L4級運行。

      最后,開源與閉源的差距正在收窄,開源系統(tǒng)OpenHands的性能表現(xiàn)已經(jīng)非常接近Devin等閉源系統(tǒng)。

      在評測體系方面,論文提到了需要聚焦三大核心方向:

      多維度指標:聯(lián)合評估創(chuàng)新性、正確性、效率、安全性,而非單一維度的優(yōu)化;長周期評測:追蹤智能體在長期科研項目中的表現(xiàn),而非孤立的單次任務(wù);社群化評估:將專家反饋循環(huán)嵌入評測流程,建立行業(yè)共識的評估標準。

      論文最后還給出了智能體系統(tǒng)六大核心待解難題:認知死循環(huán)、上下文窗口限制、創(chuàng)新價值評估、結(jié)果可復(fù)現(xiàn)性、安全風險與使用成本。


      其中認知死循環(huán)、原創(chuàng)性評測、安全問題最為關(guān)鍵,因此認知循環(huán)問題使得智能體仍無法識別自身陷入困境,只會在失敗策略上持續(xù)堅持,而非尋找全新方法;再加上其沒有可靠的自動化指標,能衡量科研成果的質(zhì)量與原創(chuàng)性,導(dǎo)致智能體無法在閉環(huán)中實現(xiàn)自我改進;最后隨著智能體能力提升,其安全邊界與倫理風險愈發(fā)突出。

      結(jié)語:雙AI協(xié)作產(chǎn)出完整論文,智能體真變身科研同事了

      陳德里此次的實驗,讓智能體實現(xiàn)了從想法到完整論文的自主產(chǎn)出,其僅投入2小時人類思考時間,通過雙AI協(xié)作就產(chǎn)出了AI科研綜述論文,證明了AI從工具進化為“科研同事”的可行性。

      AI此次面對長周期、長流程的復(fù)雜工作,最后生成的論文邏輯清晰且沒有跑偏,展現(xiàn)出了超長文本處理、長流程持續(xù)執(zhí)行、全程邏輯統(tǒng)一的核心能力。

      在科研智能體領(lǐng)域,陳德里不僅用有趣的實驗展現(xiàn)出了科研智能體的能力,還通過完整的論文分析解讀展現(xiàn)出當下這一領(lǐng)域發(fā)展的現(xiàn)狀及痛點,可以說是雙管齊下,或為后續(xù)智能體的研究提供了新穎的參考方向。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      離婚官司尚未宣判男子莫名被離婚:法律工作者偽造判決書,妻子持假文書再婚遷戶

      離婚官司尚未宣判男子莫名被離婚:法律工作者偽造判決書,妻子持假文書再婚遷戶

      上游新聞
      2026-05-27 11:00:35
      見過分手互撕,沒見過分開17年還這么護著!庾澄慶伊能靜太好哭了

      見過分手互撕,沒見過分開17年還這么護著!庾澄慶伊能靜太好哭了

      寒士之言本尊
      2026-05-27 12:42:50
      雷軍淪陷了!回應(yīng)武契奇總統(tǒng)買不起小米車,被批情商低,評論笑死

      雷軍淪陷了!回應(yīng)武契奇總統(tǒng)買不起小米車,被批情商低,評論笑死

      做一個合格的吃瓜群眾
      2026-05-27 15:18:42
      鄭欽文的失敗是必然結(jié)果!爆紅后商業(yè)代言邀約不斷,疏于打球磨練

      鄭欽文的失敗是必然結(jié)果!爆紅后商業(yè)代言邀約不斷,疏于打球磨練

      童叔不飆車
      2026-05-26 22:43:00
      41歲王珞丹現(xiàn)狀:住河北深山,不結(jié)婚不生子,放棄榮華富貴圖啥?

      41歲王珞丹現(xiàn)狀:住河北深山,不結(jié)婚不生子,放棄榮華富貴圖啥?

      白面書誏
      2026-04-20 15:26:26
      米奇回應(yīng)丟G5!提防守與罰球問題,談文班表現(xiàn),回應(yīng)輪換質(zhì)疑!

      米奇回應(yīng)丟G5!提防守與罰球問題,談文班表現(xiàn),回應(yīng)輪換質(zhì)疑!

      籃球資訊達人
      2026-05-27 13:24:17
      60歲以上老人,手里存款只要高于這3個數(shù),養(yǎng)老從此不愁了

      60歲以上老人,手里存款只要高于這3個數(shù),養(yǎng)老從此不愁了

      貓叔東山再起
      2026-05-09 10:15:08
      華為的車,開始自己打起來了

      華為的車,開始自己打起來了

      茄小茄說事
      2026-05-25 11:41:47
      同濟大學(xué)、中山大學(xué)等多所高校學(xué)者被舉報涉嫌學(xué)術(shù)不端,有人被免職;科研人員:有些“大咖”太忙,甚至不清楚手下在做什么

      同濟大學(xué)、中山大學(xué)等多所高校學(xué)者被舉報涉嫌學(xué)術(shù)不端,有人被免職;科研人員:有些“大咖”太忙,甚至不清楚手下在做什么

      每日經(jīng)濟新聞
      2026-05-26 21:49:15
      央媒發(fā)文,高調(diào)官宣張藝謀新身份,全家移民美國改國籍真相大白!

      央媒發(fā)文,高調(diào)官宣張藝謀新身份,全家移民美國改國籍真相大白!

      社會日日鮮
      2026-05-24 17:17:12
      直到李老師當場揭穿吹火替身,封子才知自己在恩師面前犯了忌

      直到李老師當場揭穿吹火替身,封子才知自己在恩師面前犯了忌

      觀察鑒娛
      2026-05-27 13:58:36
      將帥“龍虎斗”:林彪與許世友的恩怨糾葛

      將帥“龍虎斗”:林彪與許世友的恩怨糾葛

      新大觀
      2026-05-27 10:51:00
      離譜,錄像確認球被雷霆破壞出界,裁判仍將球權(quán)給雷霆&吹馬刺技犯

      離譜,錄像確認球被雷霆破壞出界,裁判仍將球權(quán)給雷霆&吹馬刺技犯

      懂球帝
      2026-05-27 10:55:42
      滬指失守4100點,超4600只個股下跌!短劇概念活躍,多股漲停,芯片股走強!機器人概念震蕩調(diào)整,上緯新材跌超11%丨A股早盤

      滬指失守4100點,超4600只個股下跌!短劇概念活躍,多股漲停,芯片股走強!機器人概念震蕩調(diào)整,上緯新材跌超11%丨A股早盤

      每日經(jīng)濟新聞
      2026-05-27 12:13:14
      突發(fā)!松島輝空官宣離隊!橋本帆乃香回應(yīng)退出亞錦賽選拔賽!

      突發(fā)!松島輝空官宣離隊!橋本帆乃香回應(yīng)退出亞錦賽選拔賽!

      乒乓網(wǎng)國球匯
      2026-05-27 02:20:32
      老夫少妻生活不和諧,33歲妻子網(wǎng)聊婚外情暴露,殺死丈夫后焚尸!

      老夫少妻生活不和諧,33歲妻子網(wǎng)聊婚外情暴露,殺死丈夫后焚尸!

      易玄
      2026-05-24 17:35:34
      武漢東湖“低價急售房”實為引流騙局,記者暗訪揭穿

      武漢東湖“低價急售房”實為引流騙局,記者暗訪揭穿

      說故事的阿襲
      2026-05-27 11:37:50
      長沙警方:某小區(qū)發(fā)生一起人員墜亡事件,死者系高墜而亡,已排除刑事案件可能,網(wǎng)友稱系惡性刑事案件為不實謠言

      長沙警方:某小區(qū)發(fā)生一起人員墜亡事件,死者系高墜而亡,已排除刑事案件可能,網(wǎng)友稱系惡性刑事案件為不實謠言

      揚子晚報
      2026-05-27 09:47:42
      報復(fù)升級,90枚導(dǎo)彈砸向基輔,普京這一巴掌打醒了全世界

      報復(fù)升級,90枚導(dǎo)彈砸向基輔,普京這一巴掌打醒了全世界

      混沌錄
      2026-05-25 18:29:40
      醫(yī)生勸告:一旦吃上降壓藥,這6種食物必須戒掉,再吃有中風風險

      醫(yī)生勸告:一旦吃上降壓藥,這6種食物必須戒掉,再吃有中風風險

      藥師健康指南
      2026-05-27 12:45:11
      2026-05-27 16:00:49
      智東西 incentive-icons
      智東西
      智東西,AI產(chǎn)業(yè)新媒體,專注報道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)變革。
      11905文章數(shù) 117085關(guān)注度
      往期回顧 全部

      科技要聞

      韜定律:全球在卷納米數(shù) 華為換了一把尺子

      頭條要聞

      受害者多為中國女性 震驚全球的迷奸案細節(jié)披露

      頭條要聞

      受害者多為中國女性 震驚全球的迷奸案細節(jié)披露

      體育要聞

      這群老阿姨,是最硬核的馬刺球迷

      娛樂要聞

      王鶴棣風波連累父親炸串店遭差評?

      財經(jīng)要聞

      ST巖石退市背后:A股“炒殼”時代終結(jié)

      汽車要聞

      極狐問道V9今日將正式上市 搭載華為雪鸮增程系統(tǒng)

      態(tài)度原創(chuàng)

      手機
      教育
      旅游
      藝術(shù)
      健康

      手機要聞

      魅族科技官宣手機服務(wù)堅守如初,稱官方售后等依然會持續(xù)提供保障

      教育要聞

      新傳考研名詞解釋:加速暴力

      旅游要聞

      山西呂梁:鄉(xiāng)村旅游繪就富民新圖景

      藝術(shù)要聞

      這個夏天去蘇州過幾天清閑安逸的日子

      打外泌體會比干細胞更安全嗎

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 国产顶级熟妇高潮xxxxx| xxxx18美国免费| 国产真人无码作爱视频免费| 明星国产欧美日韩在线观看| 中文无码伦AV中文字幕在线| 亚洲av片在线免费观看| 黑人玩弄出轨人妻松雪| 熟女中文字幕在线| 精品 日韩 国产 欧美 视频| 国产cosplay高清在线精品| 亚洲国产成人久久综合电影| 亚洲乱码中文字幕在线| 亚洲欧美日韩在线码| WWW色色| 中文字幕日本一区二区在线观看| 18亚洲AV无码成人网站国产| 狠狠色综合一区二区| 亚无码乱人伦一区二区| 久久精品国产99精品国偷| 4hu四虎永久在线影院| 婷婷伊人精品| 欧美成人精品手机在线| 爆乳一区二区| 男人的天堂在线视频| 2021久久超碰国产精品最新| 18禁午夜宅男成年网站| 久久久久久久久无码精品亚洲日韩| 久久婷婷色| 拍拍拍| 欧美一级特黄高清视频| 日本韩国国产精品自拍| 男人女人做爽爽18禁网站| 男女扒开双腿猛进入爽爽免费看| 少妇情欲一区二区影视| 人妻?无码中出| 亚洲色大成网站www应用| 久久精品国产88久久综合| 国产亚洲AV无码一区二区二三区| 狠狠躁夜夜躁无码中文字幕| 亚洲午夜无码久久久久蜜臀av | 五月天婷亚洲天综合网综合|