大多數大語言模型的演示在三個條件變化時會失效:用戶輸入偏離預設、上下文窗口溢出、工具調用失敗。AI Behavior Lab 針對這三個痛點,讓開發者能同時觀察同一提示詞在不同配置下的執行差異。
傳統調試的困境在于執行狀態不可見。這款工具將隱藏的運行時輸入轉化為可交互的界面元素,每次運行都是針對相同用戶提示的受控實驗,僅改變運行時能力參數。
![]()
單次運行返回四項核心數據:執行軌跡、內存狀態、上下文注入片段、工具調用序列。核心函數 runBehaviorScenario() 負責四件事:接收合并后的 payload 與場景標志、執行單次推理、捕獲完整運行時狀態、返回結構化診斷數據。通過 Promise.all 并行執行多場景,實現"同輸入多路徑"的確定性對比。
內存管理采用 BufferMemory 按 sessionId 隔離。代碼邏輯為:獲取會話內存實例、加載歷史變量、保存當前輸入輸出上下文。這讓后續指令如"改成素食版本"成為可量化的行為變化,而非依賴直覺判斷。
上下文處理摒棄硬編碼字符串拼接,改用檢索器驅動模式。具體實現:基于文檔構建內存向量存儲、轉換為檢索器實例、按輸入查詢返回 Top-K 結果。這種設計與生產環境的檢索模式保持一致。
工具調用模塊以 Tavily 搜索為示例,支持模型自主決策調用時機。流程為:綁定搜索工具到模型、執行首次推理、若觸發工具調用則執行并包裝為 ToolMessage、請求最終響應。整個過程形成完整的工具-模型閉環。
每次運行附帶診斷數據直接驅動界面渲染,支持事后分析如"對比運行 #3 和 #7,工具調用次數為何不同"。健康檢查接口 /api/health 預先驗證提供商配置與 Tavily 密鑰,避免用戶因缺失憑證而調試"幽靈行為"。
界面設計刻意偏向診斷而非對話:左側為場景配置面板,中央是并行運行結果矩陣,底部展開任意運行的完整執行軌跡。這款工具的本質不是聊天機器人,而是可觀測性界面——目標不是生成文本,而是讓行為可被調試。
項目已開源,同時提供模板功能快速回復常見問題或存儲可復用代碼片段。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.