網易首頁 > 網易號 > 正文申請入駐

44%成功率背后：一個本地大模型的生存實驗

2026-05-08 05:56:46　來源: 碼上閑敘

北京舉報

分享至

八年前就有萬億參數模型的今天，一個35B參數的本地模型正在用44%的成功率挑戰云服務的統治地位。

Kiwi-chan，這個運行在本地硬件上的AI代理，剛剛完成了一次架構層面的"斷網宣言"——不再調用任何云端API，不再受限于token配額，完全依賴Qwen 35B在方塊荒野中自主決策。過去四小時的運行數據直白得近乎殘酷：總計行動2283次，成功1005次，成功率44.0%。

這個數字在考試卷上意味著不及格，但在完全本地化的LLM自動化領域，它標志著一個關鍵轉折點。每一次失敗都被強制記錄，每一次崩潰都觸發即時調試，沒有try-catch的溫柔包裹，錯誤直接導致腳本終止，Qwen 35B必須現場分析、打補丁、重試。

核心機制的設計暴露了一種近乎偏執的透明原則。代碼循環執行著簡單的位移邏輯：在當前坐標基礎上隨機偏移±40格，調用路徑規劃模塊，移動后校驗實際位移距離——若不足10格則拋出錯誤。沒有隱藏層，沒有優雅降級，失敗就是失敗。

實際運行中，Kiwi-chan陷入了典型的探索死循環。日志反復出現"explore_forward"指令，如同數字倉鼠在昂貴跑機上空轉。代理嘗試移動30-40格，審計路徑，遭遇地形障礙或超時，拋出"Failed to move"，本地模型隨即啟動恢復協議。

技術棧的約束條件堪稱嚴苛：禁止隱藏錯誤、禁止外部API依賴、必須維護37項技能的記憶庫、執行失敗記憶機制。當代理被困在無樹生物群系時，系統不會崩潰，而是觸發"BOREDOM TRIGGERED!"協議——切換至純文本模式，自我協商重試策略。

關鍵進化發生在反饋閉環中。Qwen 35B逐漸學會區分"代碼bug"與"環境問題"，在確認屬于生物群系限制后，主動跳過無效的地形修復嘗試。這種判斷完全基于本地推理，沒有云端模型的二次確認。

從架構視角看，這次實驗驗證了一條反直覺路徑：通過強制暴露所有失敗、禁止錯誤掩蓋、壓縮模型規模至可本地部署，反而可能加速代理的自主學習能力。44%的成功率不是終點，而是基線——每一個百分點都對應著可追蹤的決策鏈條，而非黑箱中的概率漂移。

日志片段揭示了這種學習過程的粗糙質感："Bot is bored of 'explore_forward'"——系統對重復無效行為產生了類似厭倦的內部標記，并觸發了模式切換。這種元認知層面的自我監控，過去通常依賴更大規模的云端模型實現。

Kiwi-chan的實驗指向一個被忽視的事實：當算力約束倒逼架構創新時，本地化部署的中小規模模型可能走出與云端巨獸截然不同的進化路線。不是更聰明，而是更透明；不是更穩定，而是更快地從失敗中恢復。

當前狀態仍充滿不確定性。探索循環尚未打破，生物群系限制持續觸發 boredom 協議，成功率在44%附近波動。但運行日志的完整可溯性意味著，每一次迭代都可以被精確復盤——這在依賴外部API的系統中幾乎不可能實現。

這場實驗的真正產品啟示或許是：對于需要持續試錯迭代的場景，可控的失敗比不可解釋的成功更有價值。當行業追逐參數規模與云端算力時，一組工程師選擇把35B模型鎖在本地硬件上，用強制崩潰換取強制學習。

結果尚未可知。但過去四小時的數據已經證明，本地化部署的LLM代理可以在完全離線狀態下維持基礎生存循環，自主處理庫存審計、合成邏輯、路徑規劃與故障恢復。44%的成功率，是這條路徑的第一個可量化坐標。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

OpenAI官方CLI上線，跟復雜的SDK說拜拜

機器之心Pro 2026-05-08 17:49:11
0 跟貼 0
商湯最強Lite模型來了，Token消耗直降60%，限時免費調用

智東西 2026-05-08 21:25:23
0 跟貼 0

GPT-Realtime-2上線！全球AI巨頭加碼，語音一夜成了AI圈香餑餑

雷科技 2026-05-08 22:00:10
0 跟貼 0

獨家對話靈御智能：百萬小時真機數據，喂出具身智能的“云端大腦”

鈦媒體APP 2026-05-08 20:33:07
0 跟貼 0
花垣生物群的發現揭開顯生宙第一次生物大滅絕的面紗

中國科普博覽 2026-05-05 23:41:53
0 跟貼 0

Excel公式寫到崩潰？這個隱藏函數讓你一次定義，全局復用

閃存獵手 2026-05-08 19:53:26
0 跟貼 0

三角洲部隊內部組織架構！

浩然簡史 2026-05-04 19:53:21
0 跟貼 0
安徽明光：云端搭臺促發展直播間里話振興

人民資訊 2026-05-08 16:59:13
0 跟貼 0

閩寧少先隊員“云端”共敘山海情誼

中國青年報 2026-05-08 23:11:51
0 跟貼 0
520 赴明月山之巔，在 1420 米云端，遇見 “一世愛你” 的心動

新浪財經 2026-05-08 18:23:04
0 跟貼 0
殲-35"0001編號"戰機亮相噴涂英文縮寫或量產出口

央視新聞客戶端 2026-05-08 08:00:26
8675 跟貼 8675
女子拿愛心冰箱的免費水洗腳，下一秒“現世報”滑倒跪地，網友：善有善報，惡有惡報

BRTV新聞 2026-05-08 21:12:25
14 跟貼 14
我是來投資的，又不是來學技術的！

包子同學呀 2026-05-07 11:10:00
0 跟貼 0
印度富人區新科技，這高超的發明技術，我們至少領先他們十幾年

嗡嗡生活說 2026-05-07 08:57:38
0 跟貼 0
給木材做標記，原來是這樣做標記的！

俊明影視剪輯 2026-05-07 14:57:41
1 跟貼 1
圍剿張雪機車？錢江摩托聲明：從未向任何供應鏈企業下達“封殺令”

看看新聞Knews 2026-05-08 11:34:33
6187 跟貼 6187
關于中東地區架構與權力的轉變，賴岳謙與三妹的觀察點，值得參考

伢伢gagako 2026-05-08 00:39:06
0 跟貼 0
不問配置不聊價格，浙江一女子開口就要買5臺最新款iPhone，老板不但不賣，反手報了警

環球網資訊 2026-05-08 07:38:20
1509 跟貼 1509
體驗MG 4X，十萬左右，硬件配置挺厚道

苑叔聊車官方賬號 2026-05-06 08:00:00
0 跟貼 0
一上強度就輸球，湖人一招被拆解，策略不能用了，亮點只剩一個

體壇大辣椒 2026-05-08 13:14:01
1 跟貼 1
上海迪士尼能通話錄音游客不能錄，否則無法提供服務！游客：憑什么迪士尼能錄我不能

瀟湘晨報 2026-05-07 16:14:22
632 跟貼 632
第一場輸10分，騎士4件事沒有做對，一策略要換了

體壇大辣椒 2026-05-06 10:17:45
23 跟貼 23
茶顏悅色，裝不下去了

中國新聞周刊 2026-05-07 22:15:57
297 跟貼 297
俄羅斯宣布“勝利日”莫斯科等地暫時斷網！近一年來俄固定電話需求飆升

紅星新聞 2026-05-08 12:51:17
3523 跟貼 3523
“排隊3小時，打卡1分鐘”，多景區迎“潑天流量”

澎湃新聞 2026-05-06 00:04:10
3850 跟貼 3850
30條中日航線，4月取消全部航班

都市快報橙柿互動 2026-05-08 13:42:34
1521 跟貼 1521
上海官宣：將承辦2028年奧運會資格系列賽

現代快報 2026-05-08 09:21:24
304 跟貼 304
PJ·塔克個人社媒宣布退役結束14年NBA生涯

北青網-北京青年報 2026-05-08 20:22:12
35 跟貼 35
頂級高手：看懂周期，也擁抱隨機

筆記俠 2026-05-08 22:00:12
0 跟貼 0
男子用孵化器孵化小雞，一窩全都順利破殼，網友：這成功率也太高了

先鋒音樂 2026-05-08 09:39:50
0 跟貼 0
一批“心機商標”被宣告無效！涉及“千禾零加”“120W ” “一品牛”“德子土” 等

中國消費者報 2026-05-08 13:07:46
1 跟貼 1
解放臺灣很可能會采用解放天津時的策略

夜叔 2026-05-07 03:39:28
0 跟貼 0
工信部批復6G技術試驗頻率

新京報 2026-05-08 08:48:06
421 跟貼 421
NBA季后賽｜湖人再度不敵雷霆，賽后全隊找裁判理論

北青網-北京青年報 2026-05-08 15:47:14
168 跟貼 168
美軍換6.8毫米彈藥背后邏輯！

老周說趣 2026-05-08 16:13:33
0 跟貼 0
江西高校本科專業大調整：管理、藝術、外語類批量撤銷

第一財經資訊 2026-05-08 19:25:23
101 跟貼 101
收評：滬指收綠深成指跌0.5% 創業板指跌0.96%

財聯社 2026-05-08 15:08:48
204 跟貼 204
1.47萬人圍觀、溢價率近920%！鐘薛高508件無形資產以2110萬元成交

紅星資本局 2026-05-08 17:42:08
106 跟貼 106
900V架構二排座椅旋轉全車舒適平權煥新極氪009搶先體驗

潮畔汽車 2026-05-08 10:00:00
0 跟貼 0
提示工程算不算真工程？這個爭議該終結了

碳基打工人 2026-05-08 22:43:42
0 跟貼 0

手機 / 數碼

房產 / 家居

44%成功率背后：一個本地大模型的生存實驗

SK海力士平均獎金600萬 工服成相親神器

外籍銀行高層在香港豪宅性虐及殺害兩女子 內幕解密

外籍銀行高層在香港豪宅性虐及殺害兩女子 內幕解密

他把首勝讓給隊友，然后用一年時間還清賬單

古天樂被曝隱婚生子，新娘竟是她

估值3000億 DeepSeek尋求500億元融資

MG 4X實車亮相 將于5月11日開啟盲訂

態度原創

PS未發售重磅獨占要完！同類項目崩盤 新作懸了

干細胞能讓人“返老還童”嗎

用蘇繡的方式，打開江西婺源

2026南寧兒童/青少年配眼鏡推薦：科學防控是關鍵，專業選擇很重要

SK海力士平均獎金600萬工服成相親神器

外籍銀行高層在香港豪宅性虐及殺害兩女子內幕解密

外籍銀行高層在香港豪宅性虐及殺害兩女子內幕解密

MG 4X實車亮相將于5月11日開啟盲訂

PS未發售重磅獨占要完！同類項目崩盤新作懸了