當前,大多數編排框架的設計初衷是支持運行幾秒到幾分鐘的代理任務。然而,隨著代理技術的進步,部分代理已經能夠連續運行數小時甚至數天,這暴露了現有框架在長時間任務中的不足。
盡管像Anthropic的Claude Code和OpenAI的Codex等模型通過多會話任務、子代理和后臺執行初步支持了長時間運行代理,但這些系統仍存在局限性,往往假設代理會在有限時間內完成工作流。
![]()
在此背景下,開源模型提供商Moonshot AI推出了其新模型Kimi K2.6,旨在突破這一限制。
Moonshot表示,Kimi K2.6專為持續執行而設計,內部測試案例顯示,該模型能夠支持運行數小時甚至連續五天的代理任務,自主處理監控、事件響應等復雜操作。
然而,這種長時間運行代理的普及也揭示了一個關鍵問題:大多數編排框架并未針對持續、有狀態的任務進行優化。Kimi K2.6通過改進版的Agent Swarms方法管理多達300個子代理,并能“同時執行跨越4,000個協調步驟”,相比Claude Code和Codex更依賴模型而非預定義角色。
Kimi K2.6現已上線Hugging Face,并可通過API、Kimi Code及Kimi應用獲取。
實踐者指出,長時間運行代理的核心挑戰遠超提示工程所能解決的范疇。例如,開發者Maxim Saplin在其博客中提到:“問題根源在于編排本身的脆弱性,這是產品設計與訓練方法的問題,而非單純依靠嚴格提示就能解決。”
此外,長時間運行代理還面臨狀態維持難題,尤其是在環境動態變化的情況下。ArmorCode首席產品官Mark Lambert指出,治理能力已落后于部署速度,“這些代理系統生成代碼和變更的速度超過了大多數組織審查、修復或治理的能力。”
F5首席產品官Kunal Anand則認為,長時間運行代理代表了一種比當前企業準備應對的更大的架構轉變,“我們正從腳本、服務、容器、函數轉向將代理作為持久基礎設施,這催生了許多尚未命名的新類別。”
Moonshot AI強調,Kimi K2.6的目標是應對“通常需要數周或數月集體人類努力才能完成的真實世界挑戰”。據技術文檔披露,該模型在10小時內從零構建了一個完整的SysY編譯器,相當于四名工程師兩個月的工作量,并通過了所有140項功能測試。
團隊還將K2.6應用于復雜工程任務,例如對一個已有八年歷史的開源金融匹配引擎進行全面改造。一次13小時的執行過程顯示,模型迭代了12種優化策略,發起了超過1,000次工具調用,精確修改了超過4,000行代碼。
更令人印象深刻的是,Moonshot團隊利用K2.6構建了一個自主運行五天的代理,負責管理監控、事件響應和系統操作。
來源:布谷財經
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.