![]()
作者 | Steef-Jan Wiggers
譯者 | 明知山
Cloudflare 在 Agents Week 期間宣布 Agent Memory 已開啟私人測試。這是一項(xiàng)托管服務(wù),可為 AI 智能體提供跨會話、上下文壓縮以及重啟后的持久化記憶能力。該服務(wù)無需把所有內(nèi)容都塞進(jìn)上下文窗口,而是從對話中提取結(jié)構(gòu)化記憶,只在需要時(shí)檢索相關(guān)內(nèi)容。Cloudflare 工程團(tuán)隊(duì)的 Tyson Trautmann 與 Rob Sutter 撰文 表示:
我們之所以構(gòu)建 Agent Memory,是因?yàn)槠脚_上實(shí)際運(yùn)行的工作負(fù)載暴露出了現(xiàn)有方案無法徹底解決的短板。那些在真實(shí)代碼庫和生產(chǎn)系統(tǒng)中運(yùn)行數(shù)周乃至數(shù)月的智能體需要一種能夠隨規(guī)模擴(kuò)大持續(xù)可用的記憶能力,而不僅僅是在標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集上表現(xiàn)良好的記憶。
該服務(wù)解決了業(yè)界所說的上下文衰減(Context Rot)問題。即便上下文窗口已突破百萬級詞元,相關(guān)研究表明,隨著上下文不斷被填滿,模型輸出質(zhì)量會隨之下降。開發(fā)者陷入兩難困境:要么保留全部信息,任由輸出質(zhì)量下滑,要么大幅精簡內(nèi)容,但會丟失智能體后續(xù)所需的關(guān)鍵信息。研究還表明,模型在上下文更少、但內(nèi)容更相關(guān)的情況下能夠生成更優(yōu)質(zhì)的結(jié)果,這也讓記憶功能不再只是單純的存儲管理工具,更成為提升輸出質(zhì)量的重要手段。
Cartesian 首席軟件架構(gòu)師、InfoQ 編輯 Eran Stiller 在領(lǐng)英上 指出,此次公告標(biāo)志著智能體系統(tǒng)設(shè)計(jì)思路正在發(fā)生更廣泛的轉(zhuǎn)變。“當(dāng)一個智能體需要用到記憶的那一刻,你面對的就不再是聊天問題,而是架構(gòu)問題。”Stiller 寫道。他認(rèn)為記憶“越來越不像是模型的特新,更像是基礎(chǔ)設(shè)施”,生命周期管理、有效性校驗(yàn)、信息壓縮與隔離邊界正成為重要的關(guān)注點(diǎn)。
對于從業(yè)者而言,架構(gòu)細(xì)節(jié)至關(guān)重要。在數(shù)據(jù)攝入端,每條消息都會分配一個基于內(nèi)容尋址的 SHA-256 標(biāo)識,以此來實(shí)現(xiàn)冪等重復(fù)攝入。提取器會并行運(yùn)行兩條處理通道:一條為寬泛通道,以約 10K 字符為單位進(jìn)行分塊處理;另一條為細(xì)節(jié)通道,專注于名稱、價(jià)格、版本號等具體數(shù)值信息。驗(yàn)證器會在記憶完成分類前執(zhí)行八項(xiàng)校驗(yàn),將記憶劃分為四種類型:事實(shí)、事件、指令和任務(wù)。事實(shí)與指令按照歸一化主題進(jìn)行鍵值管理,新增記憶會覆蓋舊有記憶,而非直接刪除舊記憶。
在檢索端,五條通道并行運(yùn)行,并通過倒數(shù)排名融合(RRF)整合結(jié)果:全文搜索、精確事實(shí)鍵查找、原始消息搜索、直接向量搜索,以及通過生成聲明式答案來彌補(bǔ)詞匯不匹配問題的 HyDE 向量搜索。Cloudflare 默認(rèn)使用 Llama 4 Scout(17B MoE)完成信息提取與分類工作,僅在內(nèi)容合成時(shí)使用 Nemotron 3(120B MoE),發(fā)現(xiàn)更大的模型僅在合成階段能發(fā)揮作用。
![]()
Agent Memory 攝入流程圖,從對話輸入、驗(yàn)證和分類,再到存儲
共享記憶功能是 Agent Memory 突破單智能體記憶局限的關(guān)鍵。記憶檔案不必專屬于某一個智能體,團(tuán)隊(duì)可以共用同一份檔案,讓某位工程師的編碼智能體所學(xué)到的規(guī)范約定、架構(gòu)決策和隱性知識都能供全員共享使用。Cloudflare 內(nèi)部已經(jīng)在落地這項(xiàng)功能。接入 Agent Memory 的智能體代碼審查器學(xué)會了在特定模式曾被標(biāo)記且作者選擇保留的情況下自動保持靜默。
Kristopher Dunham 在 對這項(xiàng)服務(wù)的詳細(xì)評測 中指出了幾個值得權(quán)衡的取舍。關(guān)于供應(yīng)商鎖定問題,Dunham 指出:
“可導(dǎo)出”意味著你能夠提取原始事實(shí),但并不代表你的檢索流程具備可移植性。
他還觀察到,提取質(zhì)量取決于開發(fā)者無法控制的次級模型,并建議對于關(guān)鍵事實(shí)主動調(diào)用 remember 工具,而非依賴自動攝入。對于準(zhǔn)備采用智能體記憶服務(wù)的團(tuán)隊(duì),Dunham 建議先把對話歷史與習(xí)得事實(shí)做架構(gòu)層面的拆分,并在上下文窗口達(dá)到約 60% 時(shí)觸發(fā)壓縮,而非等到達(dá)到上限。
智能體記憶賽道正變得愈發(fā)擁擠。Mem0 提供搭載向量、圖譜與鍵值存儲的托管云 API。Zep 的 Graphiti 引擎采用時(shí)序知識圖譜,用來追蹤各類事實(shí)的有效存續(xù)時(shí)間。LangMem 可與 LangGraph 集成,但需要自行部署托管。Letta(原 MemGPT)提供分層記憶架構(gòu),允許智能體自主管控自己的上下文。Cloudflare 這款產(chǎn)品的差異化優(yōu)勢在于邊緣分布式部署、與自身計(jì)算原語(Durable Objects、Vectorize、Workers AI)的深度集成,以及獨(dú)有的多通道檢索架構(gòu)。
Agent Memory 目前仍處于私人測試階段。在 Cloudflare 平臺上開發(fā)智能體的開發(fā)者可以 加入等待列表,產(chǎn)品定價(jià)暫未公布。
https://www.infoq.com/news/2026/04/cloudflare-agent-memory-beta/
聲明:本文由 InfoQ 翻譯,未經(jīng)許可禁止轉(zhuǎn)載。
會議推薦
世界模型的下一個突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發(fā)體系不重構(gòu),還能撐多久?
AICon 上海站 2026,4 大核心專題等你來:世界模型與多模態(tài)智能突破、Agent 架構(gòu)與工程化實(shí)踐、Agent 安全與可信治理、企業(yè)級研發(fā)體系重構(gòu)。14 個專題全面開放征稿。
誠摯邀請你登臺分享實(shí)戰(zhàn)經(jīng)驗(yàn)。AICon 2026,期待與你同行。
今日薦文
你也「在看」嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.