八年前就有萬億參數模型的今天,一個35B參數的本地模型正在用44%的成功率挑戰云服務的統治地位。
Kiwi-chan,這個運行在本地硬件上的AI代理,剛剛完成了一次架構層面的"斷網宣言"——不再調用任何云端API,不再受限于token配額,完全依賴Qwen 35B在方塊荒野中自主決策。過去四小時的運行數據直白得近乎殘酷:總計行動2283次,成功1005次,成功率44.0%。
![]()
這個數字在考試卷上意味著不及格,但在完全本地化的LLM自動化領域,它標志著一個關鍵轉折點。每一次失敗都被強制記錄,每一次崩潰都觸發即時調試,沒有try-catch的溫柔包裹,錯誤直接導致腳本終止,Qwen 35B必須現場分析、打補丁、重試。
核心機制的設計暴露了一種近乎偏執的透明原則。代碼循環執行著簡單的位移邏輯:在當前坐標基礎上隨機偏移±40格,調用路徑規劃模塊,移動后校驗實際位移距離——若不足10格則拋出錯誤。沒有隱藏層,沒有優雅降級,失敗就是失敗。
實際運行中,Kiwi-chan陷入了典型的探索死循環。日志反復出現"explore_forward"指令,如同數字倉鼠在昂貴跑機上空轉。代理嘗試移動30-40格,審計路徑,遭遇地形障礙或超時,拋出"Failed to move",本地模型隨即啟動恢復協議。
技術棧的約束條件堪稱嚴苛:禁止隱藏錯誤、禁止外部API依賴、必須維護37項技能的記憶庫、執行失敗記憶機制。當代理被困在無樹生物群系時,系統不會崩潰,而是觸發"BOREDOM TRIGGERED!"協議——切換至純文本模式,自我協商重試策略。
關鍵進化發生在反饋閉環中。Qwen 35B逐漸學會區分"代碼bug"與"環境問題",在確認屬于生物群系限制后,主動跳過無效的地形修復嘗試。這種判斷完全基于本地推理,沒有云端模型的二次確認。
從架構視角看,這次實驗驗證了一條反直覺路徑:通過強制暴露所有失敗、禁止錯誤掩蓋、壓縮模型規模至可本地部署,反而可能加速代理的自主學習能力。44%的成功率不是終點,而是基線——每一個百分點都對應著可追蹤的決策鏈條,而非黑箱中的概率漂移。
日志片段揭示了這種學習過程的粗糙質感:"Bot is bored of 'explore_forward'"——系統對重復無效行為產生了類似厭倦的內部標記,并觸發了模式切換。這種元認知層面的自我監控,過去通常依賴更大規模的云端模型實現。
Kiwi-chan的實驗指向一個被忽視的事實:當算力約束倒逼架構創新時,本地化部署的中小規模模型可能走出與云端巨獸截然不同的進化路線。不是更聰明,而是更透明;不是更穩定,而是更快地從失敗中恢復。
當前狀態仍充滿不確定性。探索循環尚未打破,生物群系限制持續觸發 boredom 協議,成功率在44%附近波動。但運行日志的完整可溯性意味著,每一次迭代都可以被精確復盤——這在依賴外部API的系統中幾乎不可能實現。
這場實驗的真正產品啟示或許是:對于需要持續試錯迭代的場景,可控的失敗比不可解釋的成功更有價值。當行業追逐參數規模與云端算力時,一組工程師選擇把35B模型鎖在本地硬件上,用強制崩潰換取強制學習。
結果尚未可知。但過去四小時的數據已經證明,本地化部署的LLM代理可以在完全離線狀態下維持基礎生存循環,自主處理庫存審計、合成邏輯、路徑規劃與故障恢復。44%的成功率,是這條路徑的第一個可量化坐標。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.