<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Autoresearch 全自動寫代碼、寫論文,Claude、Codex、龍蝦紛紛復現

      0
      分享至

      Karpathy 最近搞了一個叫 autoresearch 的項目,一出手就在圈內炸了鍋。

      核心思路簡單到離譜:你去睡覺,AI 幫你通宵做實驗

      一覺醒來,100 多個實驗結果整整齊齊地擺在面前。

      更猛的是,社區在此基礎上迅速衍生出了好幾個項目,把這套"自主研究"的范式推向了更廣的場景——從代碼質量優化,到直接幫你寫論文。

      我覺得這可能是 2026 年最有意思的 AI Agent 落地方向之一

      Karpathy 的 autoresearch:用 Markdown 編程的研究機構

      項目地址:https://github.com/karpathy/autoresearch

      Karpathy 在 README 里寫了一段非常有畫面感的話:

      曾經,前沿 AI 研究是由肉體大腦完成的,他們在吃飯、睡覺和其他娛樂之間擠出時間做研究,偶爾通過名為"組會"的儀式用聲波互聯來同步進展。那個時代早已過去。研究現在完全屬于在天空中計算集群巨型建筑上運行的自主 AI Agent 群。
      Karpathy autoresearch 實驗進展圖

      核心玩法是什么?

      整個項目只有三個關鍵文件:

      文件

      作用

      誰來改?

      prepare.py

      數據準備、評估函數、dataloader

      ? 不能動

      train.py

      模型架構、優化器、訓練循環

      AI 改這個

      program.md

      AI Agent 的行為指令

      ? 人類改這個

      這個設計太妙了——你不再寫 Python,你寫 Markdown

      program.md就是你的"研究組織代碼",定義 AI Agent 的行為模式:怎么實驗、怎么評估、怎么決定保留還是回滾

      實驗循環長這樣:

      永遠循環:
      1. 看當前 git 狀態
      2. 改 train.py,嘗試一個想法
      3. git commit
      4. 跑實驗(5分鐘固定時長)
      5. 讀取結果:val_bpb 有沒有降低?
      6. 降了 → 保留,推進分支
      7. 沒降 → git reset 回滾
      8. 記錄到 results.tsv
      9. 繼續下一個實驗

      每次實驗固定跑 5 分鐘,一個小時跑大約 12 個實驗。你睡 8 小時,AI 就給你跑了將近 100 個實驗。每個實驗的指標、內存、狀態全部記錄在 TSV 里

      program.md里有一條非常霸氣的規則:

      NEVER STOP: 一旦實驗循環開始,不要暫停問人要不要繼續。人類可能在睡覺。你是自主的。如果沒想法了,想得更深一些。循環持續到人類手動打斷為止

      快速上手:

      # 安裝 uv 包管理器
      curl -LsSf https://astral.sh/uv/install.sh | sh

      # 安裝依賴
      uv sync

      # 下載數據和訓練 tokenizer
      uv run prepare.py

      # 手動跑一次訓練(驗證環境正常)
      uv run train.py

      然后開啟你的 Claude Code 或者 Codex,對它說一句話就行:

      Hi have a look at program.md and let's kick off a new experiment!

      醒來看results.tsv

      設計哲學上有幾點我覺得特別精彩:

      • 固定時間預算:所有實驗都是 5 分鐘,不管你怎么改架構改參數,都是公平比較

      • 簡潔性原則:同等效果下更簡單的代碼優先。刪代碼能保持效果?那就是贏

      • 單一指標:只看val_bpb(驗證集 bits per byte),越低越好

      • Git 即記憶:所有實驗都 commit,成功推進分支,失敗就 reset

      不過這個項目目前只支持 NVIDIA GPU(在 H100 上測試),對 Mac 或 CPU 用戶不太友好。好在社區已經有了 MacOS、Windows、AMD 的 fork 版本。

      Codex Autoresearch:把自主研究推廣到一切有指標的場景

      項目地址:https://github.com/leo-lilinxiao/codex-autoresearch


      Codex Autoresearch Banner

      Karpathy 的 autoresearch 只做 ML 訓練,而codex-autoresearch把這套邏輯泛化到了所有軟件工程場景。

      它是一個 OpenAI Codex 的 Skill(技能插件),核心理念:只要你有一個可以衡量的數字指標,它就能幫你自動優化。

      你只需用一句話描述目標,Codex 會自動分析項目、確認指標、然后進入自主迭代循環。

      看幾個實際場景:

      你說的話

      Codex 做什么

      "提高測試覆蓋率"

      掃描項目,提出指標,自動寫測試直到達標

      "修復 12 個失敗的測試"

      逐個檢測修復,直到全部通過

      "為什么 API 返回 503?"

      用科學方法排查根因,給出可證偽的假設

      "這段代碼安全嗎?"

      STRIDE + OWASP 審計,每個發現都有代碼證據

      架構上有個很聰明的設計——支持前臺和后臺兩種運行模式。

      你可以盯著它跑,也可以讓它后臺無人值守地跑一整夜。

      實驗循環跟 Karpathy 的一脈相承:

      共享循環核心(永遠循環或 N 次):
      1. 審查當前狀態 + git 歷史 + 結果日志
      2. 選一個假設
      3. 做一個原子改動
      4. git commit
      5. 跑驗證 + 安全護欄
      6. 改進了 → 保留。變差了 → 回滾。崩了 → 修復或跳過
      7. 記錄結果
      8. 健康檢查
      9. 連續 3 次丟棄 → 調整策略;5 次 → 轉向;2 次轉向 → 搜索網絡
      10. 重復

      它還有一個跨運行學習的機制——每次成功或失敗的經驗都會被提取成"教訓",注入到下一輪實驗的決策中。

      安裝也很簡單:

      git clone https://github.com/leo-lilinxiao/codex-autoresearch.git
      cp -r codex-autoresearch your-project/.agents/skills/codex-autoresearch

      然后在 Codex 里說:

      $codex-autoresearch
      I want to get rid of all the `any` types in my TypeScript code

      走開,回來看結果。

      Claude Autoresearch:9 個命令覆蓋全場景

      項目地址:https://github.com/uditgoenka/autoresearch

      這個是面向 Claude Code 的版本,口號很直白:

      "設定目標 → Claude 跑循環 → 你醒來看結果"

      跟 Codex 版本類似,也是泛化的自主迭代框架,但這個項目在命令體系上做得更完整,提供了 9 個開箱即用的命令:

      命令

      功能

      /autoresearch

      核心自主迭代循環

      /autoresearch:plan

      交互式配置向導

      /autoresearch:security

      STRIDE + OWASP 安全審計

      /autoresearch:ship

      發布前檢查工作流

      /autoresearch:debug

      科學方法自主排 bug

      /autoresearch:fix

      自動修復所有錯誤

      /autoresearch:scenario

      場景驅動測試生成

      /autoresearch:predict

      多角色預分析

      /autoresearch:learn

      自動生成/更新文檔

      它定義了8 條核心規則,這也是整個 autoresearch 范式的精髓:

      1. 循環到底——無限循環或 N 次循環后總結

      2. 先讀后寫——理解上下文再動手

      3. 一次一改——原子性修改,壞了知道是哪步

      4. 機械驗證——不要主觀的"看起來行",要指標

      5. 自動回滾——失敗立刻撤回

      6. 簡單為王——同樣效果,代碼越少越好

      7. Git 即記憶——所有實驗都進 git 歷史

      8. 卡住了就想更深——沒思路的時候重新審視、組合近似成功的實驗、嘗試激進改變

      安裝方式(推薦插件安裝):

      # 在 Claude Code 中運行
      /plugin marketplace add uditgoenka/autoresearch
      /plugin install autoresearch@autoresearch

      或者手動復制:

      git clone https://github.com/uditgoenka/autoresearch.git
      cp -r autoresearch/claude-plugin/skills/autoresearch .claude/skills/autoresearch
      cp -r autoresearch/claude-plugin/commands/autoresearch .claude/commands/autoresearch

      然后試試:

      /autoresearch
      Goal: Increase test coverage from 72% to 90%
      Scope: src/**/*.test.ts, src/**/*.ts
      Metric: coverage % (higher is better)
      Verify: npm test -- --coverage | grep "All files"
      Guard: npm test
      AutoResearchClaw:最激進的——直接幫你寫論文

      項目地址:https://github.com/aiming-lab/AutoResearchClaw


      AutoResearchClaw

      前面幾個還是在"優化代碼/模型"的范疇,這貨直接把目標拉到了全自主寫論文

      口號:"Chat an Idea. Get a Paper."——你說一個想法,它給你出一篇會議論文


      AutoResearchClaw 框架圖

      23 個階段,8 個大的 Phase,全自動流水線

      Phase A: 研究范圍界定         Phase E: 實驗執行
      1. 主題初始化 12. 實驗運行
      2. 問題分解 13. 迭代改進(自動修復)

      Phase B: 文獻發現 Phase F: 分析與決策
      3. 搜索策略 14. 結果分析(多 Agent)
      4. 文獻收集(真實 API) 15. 研究決策(PIVOT/REFINE)
      5. 文獻篩選 [人工關口]
      6. 知識提取 Phase G: 論文寫作
      16. 論文大綱
      Phase C: 知識綜合 17. 論文初稿
      7. 綜合 18. 同行評審(證據檢查)
      8. 假設生成(多角色辯論) 19. 論文修訂

      Phase D: 實驗設計 Phase H: 最終化
      9. 實驗設計 [人工關口] 20. 質量關口 [檢查]
      10. 代碼生成 21. 知識歸檔
      11. 資源規劃 22. 導出發布(LaTeX)
      23. 引用驗證

      最終產出一整套交付物:

      產出

      paper_draft.md

      完整論文(引言、相關工作、方法、實驗、結論)

      paper.tex

      可編譯的 LaTeX(NeurIPS/ICML/ICLR 模板)

      references.bib

      真實的 BibTeX 引用(來自 OpenAlex、Semantic Scholar、arXiv)

      experiment runs/

      生成的實驗代碼 + 沙箱運行結果

      charts/

      自動生成的對比圖表

      reviews.md

      多 Agent 同行評審

      幾個讓我印象深刻的設計:

      1. 引用不造假:文獻通過 OpenAlex、Semantic Scholar 和 arXiv API 獲取真實論文,還有 4 層引用驗證。這一點非常關鍵,其他自動寫論文的工具最大的問題就是瞎編引用

      2. 自愈機制:實驗失敗了會自動診斷修復;假設不成立會自動 PIVOT 換方向

      3. 多 Agent 辯論:假設生成和結果分析都用多視角辯論機制,不是單一 LLM 的"自說自話"

      4. 跨平臺支持:通過 ACP(Agent Client Protocol),支持 Claude Code、Codex CLI、Copilot CLI、Gemini CLI、Kimi CLI 等任何兼容的 Agent 后端

      5. Sentinel 哨兵:后臺質量監控——NaN/Inf 檢測、論文證據一致性檢查、引用相關性打分、反編造守衛

      快速上手:

      # 克隆安裝
      git clone https://github.com/aiming-lab/AutoResearchClaw.git
      cd AutoResearchClaw
      python3 -m venv .venv && source .venv/bin/activate
      pip install -e .

      # 交互式配置
      researchclaw setup
      researchclaw init

      # 一條命令跑起來
      export OPENAI_API_KEY="sk-..."
      researchclaw run --config config.arc.yaml --topic "Your research idea" --auto-approve

      它已經 showcase 了 8 個領域(數學、統計、生物、計算、NLP、RL、視覺、魯棒性)的全自主生成論文

      橫向對比:四個項目怎么選?

      特性

      Karpathy autoresearch

      Codex Autoresearch

      Claude Autoresearch

      AutoResearchClaw

      核心場景

      ML 模型訓練優化

      通用代碼質量

      通用代碼質量

      全自主寫論文

      Agent 平臺

      任意

      OpenAI Codex

      Claude Code

      多平臺 ACP

      自主程度

      高(永不停止)

      高(后臺模式)

      高(無限循環)

      極高(23 階段流水線)

      迭代粒度

      改 train.py

      任意代碼改動

      任意代碼改動

      文獻→實驗→論文

      評估方式

      val_bpb

      自定義指標

      自定義指標

      多維質量評審

      GPU 要求

      需要 NVIDIA GPU

      不需要

      不需要

      按任務而定

      適合誰

      ML 研究者

      工程師/開發者

      工程師/開發者

      科研工作者


      老章說兩句

      這一波 autoresearch 生態的爆發,本質上是三個趨勢交匯:

      第一,Agent 能力到位了。Claude Code、Codex CLI 這些編程 Agent 已經能夠穩定地修改代碼、運行測試、讀取結果。不再是"玩具級"了。

      第二,范式足夠簡潔。Karpathy 的核心洞察是——你只需要一個指標 + 一個約束 + 一個循環。這個模式簡單到任何人都能理解、任何場景都能套用。

      第三,Git 是天然的 Agent 記憶。每次實驗 commit,失敗就 revert,成功就推進。這比任何復雜的狀態管理系統都優雅。

      說白了,這就是把 AI 從"一次性問答"變成"持續迭代"的范式轉變。以前你讓 AI 改代碼,改完就改完了?,F在是讓它進入一個無限循環:改、測、評、保留或回滾、再來。跟人類科研的流程一模一樣——提出假設、做實驗、分析結果、決定下一步——只不過它不需要睡覺。

      我覺得 AutoResearchClaw 是最值得關注的一個。

      雖然全自主寫論文的質量還沒法跟頂級研究者比,但作為科研輔助工具——幫你快速做文獻調研、跑初步實驗、生成論文初稿——已經能省掉大量重復勞動了。

      當然,這些項目也有很明顯的局限:

      • 只能優化能量化的東西。"讓代碼更優雅"這種目標它搞不定

      • API 成本不低。跑一夜的實驗,token 費用可能不便宜

      • 創造性有限。它擅長的是在已知空間內暴力搜索,真正顛覆性的創新還是得靠人類

      但方向是對的。

      當 Agent 能力繼續提升、成本繼續下降,"你定義方向,AI 做苦力"可能真的會成為科研和工程的常態。

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      劉嘉玲默許梁朝偉在島國養私生子 ?。?>
    </a>
        <h3>
      <a href=劉嘉玲默許梁朝偉在島國養私生子 ?。?/a> 八卦瘋叔
      2026-05-12 10:10:13
      早報:美國總統特朗普對中國進行國事訪問;降噪耳機受害者出現;FIFA官網沒有中文模式惹惱中國網友

      早報:美國總統特朗普對中國進行國事訪問;降噪耳機受害者出現;FIFA官網沒有中文模式惹惱中國網友

      岸標財經
      2026-05-13 03:32:55
      亞洲杯出線!U17國足至少5人能獲運動健將稱號 無需高考+保送大學

      亞洲杯出線!U17國足至少5人能獲運動健將稱號 無需高考+保送大學

      我愛英超
      2026-05-13 02:34:59
      剛剛,四川突發地震!

      剛剛,四川突發地震!

      吉刻新聞
      2026-05-12 21:53:03
      令人振奮!上海地鐵“傲慢大媽”終于被依法懲處,倚老賣老已無用

      令人振奮!上海地鐵“傲慢大媽”終于被依法懲處,倚老賣老已無用

      瓜哥的動物日記
      2026-05-12 07:09:39
      逛菜市場別再亂買了,這四種食材多是假貨,聰明人從不入手

      逛菜市場別再亂買了,這四種食材多是假貨,聰明人從不入手

      復轉這些年
      2026-05-12 23:38:40
      大S女兒賬號爭議引發關注,汪小菲緊急回應

      大S女兒賬號爭議引發關注,汪小菲緊急回應

      何嗀愛捕漁
      2026-05-11 20:23:59
      浙江衢州一酒吧護士節活動海報被指低俗,酒吧回應:系AI生成;市場監管局工作人員:正向相關科室進行反饋

      浙江衢州一酒吧護士節活動海報被指低俗,酒吧回應:系AI生成;市場監管局工作人員:正向相關科室進行反饋

      瀟湘晨報
      2026-05-12 16:21:14
      成都“牽手門”事件女主現今狀況曝光,太慘了......

      成都“牽手門”事件女主現今狀況曝光,太慘了......

      許三歲
      2026-03-17 07:34:05
      轟24+11又造七紀錄!誰還言哈登不能打硬仗?美記:或許又要搶七

      轟24+11又造七紀錄!誰還言哈登不能打硬仗?美記:或許又要搶七

      顏小白的籃球夢
      2026-05-12 11:07:02
      湖南男子打110問搶劫判幾年,稱“想進監獄靜一靜”,接警員開啟疏導模式,民警上門勸導,最終放棄極端念頭

      湖南男子打110問搶劫判幾年,稱“想進監獄靜一靜”,接警員開啟疏導模式,民警上門勸導,最終放棄極端念頭

      極目新聞
      2026-05-12 19:04:32
      哈佛博士:大幅提高人類壽命的真正原因,所有人都沒想到!

      哈佛博士:大幅提高人類壽命的真正原因,所有人都沒想到!

      深度報
      2026-05-10 22:38:11
      消費者稱廁所漏水在啄木鳥平臺上申請維修,因不同意維修方案,拒修后被收500元檢測費

      消費者稱廁所漏水在啄木鳥平臺上申請維修,因不同意維修方案,拒修后被收500元檢測費

      山西經濟日報
      2026-05-12 15:19:36
      美國海軍陸戰隊中將:中國實力不是接近美國,而是已經和美國對等

      美國海軍陸戰隊中將:中國實力不是接近美國,而是已經和美國對等

      觀銳器
      2026-05-11 12:48:42
      遲到清算!江蘇原教育廳長沈健落馬,主導480分高考曾毀多少天才

      遲到清算!江蘇原教育廳長沈健落馬,主導480分高考曾毀多少天才

      音樂時光的娛樂
      2026-05-13 00:11:59
      媒體人:麥基、斯佩爾曼兩位大爺態度讓人無語,幸虧其他球員爭氣

      媒體人:麥基、斯佩爾曼兩位大爺態度讓人無語,幸虧其他球員爭氣

      懂球帝
      2026-05-12 23:09:04
      廣東5人合同到期!杜潤旺+2小將或留隊,王少杰租借到期買斷嗎?

      廣東5人合同到期!杜潤旺+2小將或留隊,王少杰租借到期買斷嗎?

      籃球資訊達人
      2026-05-13 01:31:06
      無錫一知名醫院,又關門了?

      無錫一知名醫院,又關門了?

      無錫eTV全媒體
      2026-05-12 12:26:22
      1979年打越南,高層其實吵翻了天?葉劍英粟裕為何反對出兵?

      1979年打越南,高層其實吵翻了天?葉劍英粟裕為何反對出兵?

      莫地方
      2026-05-13 01:20:03
      三年退款2700次!一哥們把「僅退款」當班上,把自己上進了局子

      三年退款2700次!一哥們把「僅退款」當班上,把自己上進了局子

      雷科技
      2026-05-12 22:06:26
      2026-05-13 04:47:00
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3395文章數 11150關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      時尚
      家居
      親子
      手機
      藝術

      普通人真該學學如何穿搭!多穿裙子比褲子更時髦,大方提氣質

      家居要聞

      極簡主義下的居住場域與空間

      親子要聞

      夏天建議:把孩子的空調服換成它!

      手機要聞

      10年支持不變:谷歌力?,F有Chromebook

      藝術要聞

      震驚!他竟用鏡頭看透了所有女人的秘密!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲中文字幕妻| 国产swag在线观看| 亚洲成色www久久网站夜月| 蜜桃91精品秘?入口| 久久久精品2019中文字幕之3| 国内精品视频成人一区二区| 青草青草久热精品视频国产4| 亚洲欧美偷拍另类A∨| 亚洲精品在线观看中文字幕| 91人妻丰满熟妇Aⅴ无码| 亚洲一区二区精品自拍| 91性爱视频| 奉化市| 欧美日韩国产亚洲一区二区三区| 久久躁狠狠躁夜夜av麻豆| 少妇做爰免费视看片| 精品服丝袜无码视频一区| 免费看国产精品3a黄的视频| 亚洲熟伦熟女新五十熟妇| 亚洲AV久久伊人| 亚洲性线免费观看视频成熟| 精品卡一卡二卡乱码高清| 2020国产欧洲精品网站| 中文字幕2019年最好看电视剧| 亚洲欧美人成人让影院| 小13箩利洗澡无码视频网站| 久久人人爽人人人人片AV| 久久精品a一国产成人免费网站| 成人无码AV片| 久久久久成人片免费观看蜜芽| 欧洲精品卡1区2卡三卡四卡| 天堂男人2021av| XXXXXHD亚洲日本HD| 亚洲熟女1P| 狠狠色丁香久久婷婷综合五月 | 亚洲乱码国产乱码精品精网站| 人妻少妇乱子伦精品无码专区电影| 成人黄网站免费永久在线观看| 国产白丝无码免费视频| 国产精品人成在线观看| 无码精品人妻一区二区三区中|