網易首頁 > 網易號 > 正文申請入駐

Autoresearch 全自動寫代碼、寫論文，Claude、Codex、龍蝦紛紛復現

2026-03-29 16:05:32　來源: Ai學習的老章

北京舉報

分享至

Karpathy 最近搞了一個叫 autoresearch 的項目，一出手就在圈內炸了鍋。

核心思路簡單到離譜：你去睡覺，AI 幫你通宵做實驗

一覺醒來，100 多個實驗結果整整齊齊地擺在面前。

更猛的是，社區在此基礎上迅速衍生出了好幾個項目，把這套"自主研究"的范式推向了更廣的場景——從代碼質量優化，到直接幫你寫論文。

我覺得這可能是 2026 年最有意思的 AI Agent 落地方向之一

Karpathy 的 autoresearch：用 Markdown 編程的研究機構

項目地址：https://github.com/karpathy/autoresearch

Karpathy 在 README 里寫了一段非常有畫面感的話：

曾經，前沿 AI 研究是由肉體大腦完成的，他們在吃飯、睡覺和其他娛樂之間擠出時間做研究，偶爾通過名為"組會"的儀式用聲波互聯來同步進展。那個時代早已過去。研究現在完全屬于在天空中計算集群巨型建筑上運行的自主 AI Agent 群。

Karpathy autoresearch 實驗進展圖

核心玩法是什么？

整個項目只有三個關鍵文件：

文件

作用

誰來改？

prepare.py

數據準備、評估函數、dataloader

? 不能動

train.py

模型架構、優化器、訓練循環

AI 改這個

program.md

AI Agent 的行為指令

? 人類改這個

這個設計太妙了——你不再寫 Python，你寫 Markdown

program.md就是你的"研究組織代碼"，定義 AI Agent 的行為模式：怎么實驗、怎么評估、怎么決定保留還是回滾

實驗循環長這樣：

永遠循環：
  1. 看當前 git 狀態
  2. 改 train.py，嘗試一個想法
  3. git commit
  4. 跑實驗（5分鐘固定時長）
  5. 讀取結果：val_bpb 有沒有降低？
  6. 降了 → 保留，推進分支
  7. 沒降 → git reset 回滾
  8. 記錄到 results.tsv
  9. 繼續下一個實驗

每次實驗固定跑 5 分鐘，一個小時跑大約 12 個實驗。你睡 8 小時，AI 就給你跑了將近 100 個實驗。每個實驗的指標、內存、狀態全部記錄在 TSV 里

program.md里有一條非常霸氣的規則：

NEVER STOP: 一旦實驗循環開始，不要暫停問人要不要繼續。人類可能在睡覺。你是自主的。如果沒想法了，想得更深一些。循環持續到人類手動打斷為止

快速上手：

# 安裝 uv 包管理器
curl -LsSf https://astral.sh/uv/install.sh | sh

 # 安裝依賴
uv sync

 # 下載數據和訓練 tokenizer
uv run prepare.py

 # 手動跑一次訓練（驗證環境正常）
uv run train.py

然后開啟你的 Claude Code 或者 Codex，對它說一句話就行：

Hi have a look at program.md and let's kick off a new experiment!

醒來看results.tsv

設計哲學上有幾點我覺得特別精彩：

固定時間預算：所有實驗都是 5 分鐘，不管你怎么改架構改參數，都是公平比較
簡潔性原則：同等效果下更簡單的代碼優先。刪代碼能保持效果？那就是贏
單一指標：只看val_bpb（驗證集 bits per byte），越低越好
Git 即記憶：所有實驗都 commit，成功推進分支，失敗就 reset

不過這個項目目前只支持 NVIDIA GPU（在 H100 上測試），對 Mac 或 CPU 用戶不太友好。好在社區已經有了 MacOS、Windows、AMD 的 fork 版本。

Codex Autoresearch：把自主研究推廣到一切有指標的場景

項目地址：https://github.com/leo-lilinxiao/codex-autoresearch

Codex Autoresearch Banner

Karpathy 的 autoresearch 只做 ML 訓練，而codex-autoresearch把這套邏輯泛化到了所有軟件工程場景。

它是一個 OpenAI Codex 的 Skill（技能插件），核心理念：只要你有一個可以衡量的數字指標，它就能幫你自動優化。

你只需用一句話描述目標，Codex 會自動分析項目、確認指標、然后進入自主迭代循環。

看幾個實際場景：

你說的話

Codex 做什么

"提高測試覆蓋率"

掃描項目，提出指標，自動寫測試直到達標

"修復 12 個失敗的測試"

逐個檢測修復，直到全部通過

"為什么 API 返回 503？"

用科學方法排查根因，給出可證偽的假設

"這段代碼安全嗎？"

STRIDE + OWASP 審計，每個發現都有代碼證據

架構上有個很聰明的設計——支持前臺和后臺兩種運行模式。

你可以盯著它跑，也可以讓它后臺無人值守地跑一整夜。

實驗循環跟 Karpathy 的一脈相承：

共享循環核心（永遠循環或 N 次）：
  1. 審查當前狀態 + git 歷史 + 結果日志
  2. 選一個假設
  3. 做一個原子改動
  4. git commit
  5. 跑驗證 + 安全護欄
  6. 改進了 → 保留。變差了 → 回滾。崩了 → 修復或跳過
  7. 記錄結果
  8. 健康檢查
  9. 連續 3 次丟棄 → 調整策略；5 次 → 轉向；2 次轉向 → 搜索網絡
  10. 重復

它還有一個跨運行學習的機制——每次成功或失敗的經驗都會被提取成"教訓"，注入到下一輪實驗的決策中。

安裝也很簡單：

git clone https://github.com/leo-lilinxiao/codex-autoresearch.git
cp -r codex-autoresearch your-project/.agents/skills/codex-autoresearch

然后在 Codex 里說：

$codex-autoresearch
I want to get rid of all the `any` types in my TypeScript code

走開，回來看結果。

Claude Autoresearch：9 個命令覆蓋全場景

項目地址：https://github.com/uditgoenka/autoresearch

這個是面向 Claude Code 的版本，口號很直白：

"設定目標 → Claude 跑循環 → 你醒來看結果"

跟 Codex 版本類似，也是泛化的自主迭代框架，但這個項目在命令體系上做得更完整，提供了 9 個開箱即用的命令：

命令

功能

/autoresearch

核心自主迭代循環

/autoresearch:plan

交互式配置向導

/autoresearch:security

STRIDE + OWASP 安全審計

/autoresearch:ship

發布前檢查工作流

/autoresearch:debug

科學方法自主排 bug

/autoresearch:fix

自動修復所有錯誤

/autoresearch:scenario

場景驅動測試生成

/autoresearch:predict

多角色預分析

/autoresearch:learn

自動生成/更新文檔

它定義了8 條核心規則，這也是整個 autoresearch 范式的精髓：

循環到底——無限循環或 N 次循環后總結
先讀后寫——理解上下文再動手
一次一改——原子性修改，壞了知道是哪步
機械驗證——不要主觀的"看起來行"，要指標
自動回滾——失敗立刻撤回
簡單為王——同樣效果，代碼越少越好
Git 即記憶——所有實驗都進 git 歷史
卡住了就想更深——沒思路的時候重新審視、組合近似成功的實驗、嘗試激進改變

安裝方式（推薦插件安裝）：

# 在 Claude Code 中運行
/plugin marketplace add uditgoenka/autoresearch
/plugin install autoresearch@autoresearch

或者手動復制：

git clone https://github.com/uditgoenka/autoresearch.git
cp -r autoresearch/claude-plugin/skills/autoresearch .claude/skills/autoresearch
cp -r autoresearch/claude-plugin/commands/autoresearch .claude/commands/autoresearch

然后試試：

/autoresearch
Goal: Increase test coverage from 72% to 90%
Scope: src/**/*.test.ts, src/**/*.ts
Metric: coverage % (higher is better)
Verify: npm test -- --coverage | grep "All files"
Guard: npm test

AutoResearchClaw：最激進的——直接幫你寫論文

項目地址：https://github.com/aiming-lab/AutoResearchClaw

AutoResearchClaw

前面幾個還是在"優化代碼/模型"的范疇，這貨直接把目標拉到了全自主寫論文

口號："Chat an Idea. Get a Paper."——你說一個想法，它給你出一篇會議論文

AutoResearchClaw 框架圖

23 個階段，8 個大的 Phase，全自動流水線：

Phase A: 研究范圍界定         Phase E: 實驗執行
  1. 主題初始化                 12. 實驗運行
  2. 問題分解                   13. 迭代改進（自動修復）

 Phase B: 文獻發現             Phase F: 分析與決策
  3. 搜索策略                   14. 結果分析（多 Agent）
  4. 文獻收集（真實 API）       15. 研究決策（PIVOT/REFINE）
  5. 文獻篩選 [人工關口]
  6. 知識提取                 Phase G: 論文寫作
                                16. 論文大綱
Phase C: 知識綜合              17. 論文初稿
  7. 綜合                       18. 同行評審（證據檢查）
  8. 假設生成（多角色辯論）     19. 論文修訂

 Phase D: 實驗設計             Phase H: 最終化
  9. 實驗設計 [人工關口]        20. 質量關口 [檢查]
 10. 代碼生成                   21. 知識歸檔
 11. 資源規劃                   22. 導出發布（LaTeX）
                                23. 引用驗證

最終產出一整套交付物：

產出

paper_draft.md

完整論文（引言、相關工作、方法、實驗、結論）

paper.tex

可編譯的 LaTeX（NeurIPS/ICML/ICLR 模板）

references.bib

真實的 BibTeX 引用（來自 OpenAlex、Semantic Scholar、arXiv）

experiment runs/

生成的實驗代碼 + 沙箱運行結果

charts/

自動生成的對比圖表

reviews.md

多 Agent 同行評審

幾個讓我印象深刻的設計：

引用不造假：文獻通過 OpenAlex、Semantic Scholar 和 arXiv API 獲取真實論文，還有 4 層引用驗證。這一點非常關鍵，其他自動寫論文的工具最大的問題就是瞎編引用
自愈機制：實驗失敗了會自動診斷修復；假設不成立會自動 PIVOT 換方向
多 Agent 辯論：假設生成和結果分析都用多視角辯論機制，不是單一 LLM 的"自說自話"
跨平臺支持：通過 ACP（Agent Client Protocol），支持 Claude Code、Codex CLI、Copilot CLI、Gemini CLI、Kimi CLI 等任何兼容的 Agent 后端
Sentinel 哨兵：后臺質量監控——NaN/Inf 檢測、論文證據一致性檢查、引用相關性打分、反編造守衛

快速上手：

# 克隆安裝
git clone https://github.com/aiming-lab/AutoResearchClaw.git
cd AutoResearchClaw
python3 -m venv .venv && source .venv/bin/activate
pip install -e .

 # 交互式配置
researchclaw setup
researchclaw init

 # 一條命令跑起來
export OPENAI_API_KEY="sk-..."
researchclaw run --config config.arc.yaml --topic "Your research idea" --auto-approve

它已經 showcase 了 8 個領域（數學、統計、生物、計算、NLP、RL、視覺、魯棒性）的全自主生成論文

橫向對比：四個項目怎么選？

特性

Karpathy autoresearch

Codex Autoresearch

Claude Autoresearch

AutoResearchClaw

核心場景

ML 模型訓練優化

通用代碼質量

全自主寫論文

Agent 平臺

任意

OpenAI Codex

Claude Code

多平臺 ACP

自主程度

高（永不停止）

高（后臺模式）

高（無限循環）

極高（23 階段流水線）

迭代粒度

改 train.py

任意代碼改動

文獻→實驗→論文

評估方式

val_bpb

自定義指標

多維質量評審

GPU 要求

需要 NVIDIA GPU

不需要

按任務而定

適合誰

ML 研究者

工程師/開發者

科研工作者

老章說兩句

這一波 autoresearch 生態的爆發，本質上是三個趨勢交匯：

第一，Agent 能力到位了。Claude Code、Codex CLI 這些編程 Agent 已經能夠穩定地修改代碼、運行測試、讀取結果。不再是"玩具級"了。

第二，范式足夠簡潔。Karpathy 的核心洞察是——你只需要一個指標 + 一個約束 + 一個循環。這個模式簡單到任何人都能理解、任何場景都能套用。

第三，Git 是天然的 Agent 記憶。每次實驗 commit，失敗就 revert，成功就推進。這比任何復雜的狀態管理系統都優雅。

說白了，這就是把 AI 從"一次性問答"變成"持續迭代"的范式轉變。以前你讓 AI 改代碼，改完就改完了?，F在是讓它進入一個無限循環：改、測、評、保留或回滾、再來。跟人類科研的流程一模一樣——提出假設、做實驗、分析結果、決定下一步——只不過它不需要睡覺。

我覺得 AutoResearchClaw 是最值得關注的一個。

雖然全自主寫論文的質量還沒法跟頂級研究者比，但作為科研輔助工具——幫你快速做文獻調研、跑初步實驗、生成論文初稿——已經能省掉大量重復勞動了。

當然，這些項目也有很明顯的局限：

只能優化能量化的東西。"讓代碼更優雅"這種目標它搞不定
API 成本不低。跑一夜的實驗，token 費用可能不便宜
創造性有限。它擅長的是在已知空間內暴力搜索，真正顛覆性的創新還是得靠人類

但方向是對的。

當 Agent 能力繼續提升、成本繼續下降，"你定義方向，AI 做苦力"可能真的會成為科研和工程的常態。

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.