凌晨2:17,監控告警:數據庫延遲飆升。值班工程師還沒讀完郵件,三個AI代理已經行動了。
性能代理擴容數據庫。成本代理發現資源過剩,開始合并實例。路由代理把流量導向數據庫層。每個決策都有日志記錄,每個決策單獨看都正確,每個代理都在按設計運行。
![]()
2:19,數據庫宕機。不是因為某個環節出錯,而是因為一切正常。沒有任何代理報錯。要還原這兩分鐘里"每個決策都對、組合起來卻災難"的鏈條,花了三天。
這是下一代基礎設施故障的樣子。
這種故障模式未必始于AI。去年三起重大事故已經證明:AWS、Azure、Cloudflare的故障,共同點是——從任何單一系統內部都看不到問題。現在把同樣的模式放到幾十個代理以機器速度并發決策的場景里。
自動化管理基礎設施并不新鮮。自動擴縮容、Kubernetes調度、AIOps重啟服務,這些都在預設規則內運行,邊界清晰。但代理定義的基礎設施不同:它觀察環境、權衡利弊、以機器速度做判斷。而且企業部署的不是一兩個,而是幾十個并發代理,共享基礎設施,秒級決策。
AWS、Azure、Cloudflare的交互故障模式不會消失,而是以三種方式倍增。凌晨2:17的場景同時觸發全部三種,而日志里什么都看不出來。共同點是:這些故障在發生前不可見,除非你監控對了東西。
代理越多,潛在交互模式不是線性增長,而是隨代理數量和權限范圍擴張而復合爆炸。
傳統監控為另一種問題而建。CPU、內存、延遲、錯誤率告訴你單一系統何時崩潰。它們無法展示多個正常系統如何交互出集體故障。
需求本質變了。問題不再是服務A是否健康,而是它的變更如何觸發服務B、C、D的動作。重要的不只是代理做了什么,而是它決策時在看什么。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.