當(dāng)有人說自己的AI智能體訓(xùn)練了1萬輪、達(dá)到超人類水平時,你只有兩個選擇:信,或者不信。沒有第三種。沒有審計(jì)軌跡,沒有可驗(yàn)證的歷史,無法區(qū)分真正學(xué)會的智能體和硬編碼查詢表冒充的"訓(xùn)練行為"。
整個智能體訓(xùn)練領(lǐng)域建立在信任之上。而信任,事實(shí)證明,是糟糕的經(jīng)濟(jì)基礎(chǔ)——如果這個經(jīng)濟(jì)本該由智能體承擔(dān)真實(shí)工作的話。
![]()
這是我在2026年4月至5月的Agentic SWARM黑客松期間反復(fù)思考的問題。Canteen與Colosseum聯(lián)合主辦的活動里,我一直在問:如果無法造假會怎樣?如果每一步訓(xùn)練都留下永久、公開、可驗(yàn)證的痕跡呢?
我花了三周時間嘗試構(gòu)建答案。結(jié)果是一個10×10的網(wǎng)格世界,兩個競爭智能體。它證明的原語很簡單:swarm-arena,一個基于Solana的無許可鏈上智能體訓(xùn)練場。
兩個智能體在資源收集網(wǎng)格中競爭,由Bevy ECS驅(qū)動——這是一個Rust游戲引擎,高效處理模擬循環(huán)。每200個tick結(jié)束一回合,得分與回合狀態(tài)經(jīng)SHA256哈希后,連同雙方得分和時間戳一并提交至Solana鏈上。
智能體聲譽(yù)隨回合在鏈上累積。若某智能體突破得分閾值,SOL獎勵自動從vault PDA釋放,無需人工介入。
技術(shù)棧很直接:Rust+Bevy ECS作為模擬引擎,其ECS架構(gòu)清晰分離了智能體組件、移動系統(tǒng)和獎勵系統(tǒng);Anchor處理三個鏈上指令——智能體注冊、回合記錄、最終結(jié)算;React與@solana/web3.js構(gòu)建的儀表盤每5秒輪詢devnet,交易落塊實(shí)時可見。
首筆devnet交易于2026年4月12日確認(rèn):38yieCpWNbex4RDEzXw8pEREHYQNswyW9hYBHXZmigLP9FEmp8FSpDAwPNvU3dcZuY5RrUdWRp6EJcjYJUcEoL21。
但拿到這筆確認(rèn)交易比預(yù)期久得多。50個回合后,Q-learning智能體的平均獎勵從0.10攀升至6.50以上。每一步都在devnet上不可篡改。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.