![]()
![]()
今天的 Code with Claude 大會,Anthropic 一口氣發了一堆東西。
做夢、成果評估、多 Agent 協作,這三項功能正式上線到了 Claude Managed Agents。其中成果評估和多 Agent 協作已經直接可用,做夢則需要單獨申請訪問權限。
但在所有發布里,有一個功能是從源碼泄露就開始被人惦記的——今天它終于上線了。
那就是“做夢”。
從源碼泄露到正式上線
幾個月前,Claude Code 源碼意外泄露,開發者社區里有人在代碼里發現了一個正在開發的功能,名字叫 Dreaming。當時大家都在猜這是什么東西,有人說是某種記憶壓縮,有人說是后臺自動優化,眾說紛紜。
用過 Claude 長期項目的人都有一個感受:用的時間越長,Agent 的表現反而開始變奇怪。它會忘記之前學到的東西,或者記住了一堆相互矛盾的信息,有時候同一個問題給出截然不同的答案。
這不是模型變笨了,是 memory 出了問題。
Agent 在每次工作 session 中會往 memory store 寫東西,記住自己學到了什么——這個工具怎么用、這個用戶喜歡什么格式、這個任務有什么坑。但時間長了,memory 里會堆滿重復條目、過時信息和相互矛盾的記錄。就像你用了三年的 Notion 筆記庫,打開來全是冗余和過期內容,找有用信息反而比沒有筆記庫更難。
Dreaming 解決的就是這個退化問題。
它是一個在 session 之間運行的異步任務,讀取現有的 memory store 和過去最多100個 session 的記錄,然后生成一個全新的、整理好的 memory store:重復的合并,過時的替換成最新值,還能從多個 session 的交叉分析中發現新模式。
Anthropic 官方的描述是:memory 讓 Agent 在工作中記住學到了什么,dreaming 讓 Agent 在工作間隙想明白這些經驗意味著什么。一個是即時學習,一個是反思整理。
這個類比非常準確。人類睡覺的時候大腦并沒有停下來,而是在整理白天的記憶、鞏固學到的東西、處理沒解決的問題。Anthropic 給 Agent 設計的 Dreaming,邏輯完全一樣。
還有一個設計細節值得注意:做夢不會修改原始數據。輸入的 memory store 保持原樣,輸出寫到一個新的 store 里,不滿意可以直接丟掉。這個設計很克制——你不用擔心 Agent“夢游”把重要記憶搞亂了。
目前支持 claude-opus-4-7和 claude-sonnet-4-6兩個模型,耗時取決于輸入量,通常幾分鐘到幾十分鐘,按標準 API token 費率計費。想試的話需要單獨申請,申請地址:https://claude.com/form/claude-managed-agents
成果評估:Agent 干完活,自己給自己打分
以前讓 Agent 干活,最大的問題不是干不完,而是干完了你不知道干得好不好,還得人工檢查。
成果評估(Outcomes)把這個檢查環節自動化了。
邏輯是這樣的:你寫一份評分標準(rubric),Agent 干完活之后,一個獨立的 grader 會對著 rubric 逐項打分。這個 grader 運行在獨立的上下文窗口里,不會影響 Agent 的工作上下文。如果判定某些條目沒達標,會把具體差在哪里反饋給 Agent,Agent 拿著反饋改,改完再評,直到全部達標或者迭代次數用完——默認3次,最多20次。
Anthropic 內部測試的數據:outcomes 比標準 prompting loop 的任務成功率高了最多10個百分點,在文件生成任務上,docx 成功率+8.4%,pptx 成功率+10.1%。越難的任務提升越明顯。
配合同時推出的 Webhooks,你可以定義好 outcome,讓 Agent 去干,干完了 webhook 通知你,完全不用盯著看。這才是“AI 員工”該有的工作方式——你布置任務、定標準、等結果,中間不用管。
已經有公司在生產環境跑這套東西了。Wisedocs 是一家醫療文檔質檢公司,用 outcomes 的 rubric 對照內部質檢標準審核文檔,實測數據是 AI 加人類協作比純人類審核快了50%,多抓了30%的錯誤。法律科技公司 Harvey 用 Managed Agents 協調長文法律文書起草,加了 dreaming 之后完成率漲了大約6倍。
多 Agent 協作:像一個小型項目組
第三個功能是多 Agent 協作(Multiagent Orchestration),說白了就是讓一群 Agent 分工干活。
當工作太復雜,一個 Agent 搞不定,系統會讓一個 lead agent 把任務拆成幾塊,分給不同的 specialist agent 并行處理。每個 specialist 有自己的模型、prompt 和工具集,在自己的 session thread 里工作,上下文互相隔離。但它們共享同一個文件系統——一個 agent 寫了文件,另一個 agent 能讀到。
線程是持久的,lead agent 可以回頭找之前調用過的 agent 繼續聊,那個 agent 還記得之前做了什么。在 Claude Console 里可以追蹤每個 agent 的每一步操作,誰做了什么、什么順序、為什么這么做,全程可見。
有一個有意的限制:只支持一層委托。Lead agent 可以調用其他 agent,但被調用的 agent 不能再調用下一層。Anthropic 在“能力”和“可控性”之間做了明確的取舍,防止 agent 鏈式調用失控。
已經有公司在生產環境跑這套東西了。Netflix 的平臺工程團隊用 multiagent 并行分析幾百個 build 的日志,只浮出反復出現的問題模式,忽略一次性噪音。
寫作工具 Spiral 用了一個很聰明的模型分層方案:Haiku 當領隊接需求、問跟進問題,然后把寫作任務分給 Opus 的子 agent 干,要多個稿件就并行跑,用 outcomes 對著編輯標準和用戶個人風格給每篇稿子打分,不達標不交。
在推特上,開發者Simon Willison在直播時提到,演示里有Commander、Detector、Navigator三個agent協作處理復雜任務,分工明確、并行執行。這套機制現在已經進入公測,開發者可以直接上手試。
Dario 說的那句話
大會上,Dario 說了一句話,此前就在開發者社區里傳得很廣的話:
AI 時代會出現單人創造10億美金營收的公司。
這話放在兩年前聽著像吹牛,但放在今天的數據面前,你會覺得它沒那么離譜。
Lovable,一個 AI 應用構建工具,兩年不到做到4億美金 ARR。Base44,一個人做的 AI 應用構建器,6個月內做到100萬美金 ARR、30萬用戶,然后以8000萬美金現金賣給了 Wix。
還有一個叫 Medvi 的案例——一個人用 AI 寫代碼、生成廣告、處理客服、分析業務,14個月做到18億美金營收的軌道上,沒有投資人,沒有團隊。
Cursor 正在沖刺500億美金估值,Claude Code 自己上線12個月市場份額12.5%,年化收入25億美金。
這些數字背后的邏輯是一致的:傳統意義上,一家公司要做到10億美金營收,需要銷售、客服、運營、技術……少則幾百人,多則幾千人。這不是因為創始人不夠聰明,而是因為人類的時間和精力有上限,一個人能管理的復雜度有天花板。
但如果 Agent 真的能持續自主運行——幫你寫代碼、跑測試、處理客戶問題、管理供應鏈——那個天花板就不一樣了。一個人能調度的“工作量”,理論上可以無限擴展。
Dario 不是在說“AI 會幫你賺錢”這種空話,他是在說,組織結構本身會被重寫。
當然這個預測有很多前提:Agent 的可靠性要足夠高,出錯率要足夠低,用戶對 AI 自主決策的信任要建立起來。這些都還在路上。但今天發布的 Dreaming、Outcomes、Multi-agent,恰好就是在往那個方向鋪路。
把這些放在一起看
做夢解決了 Agent 記憶退化的問題,成果評估解決了“干完了誰來檢查”的問題,多 Agent 協作解決了“復雜任務一個人搞不定”的問題。
三個功能,解決的是同一件事:讓 Agent 真正能獨立工作,而不只是“你問我答”。
Anthropic 一直被外界貼著“安全派”的標簽,相比 OpenAI 的激進顯得更保守。但今天這些東西放在一起,你會看到一家公司在非常系統地鋪路——不是在做功能,是在搭基礎設施,為一個“AI 真正能獨立工作”的世界做準備。
Dario 說單人公司10億美金不是夢。今天發布的這些,是他給這句話的注腳。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.