Cloudflare 推出 Agent Memory：面向 AI 智能體的持久記憶托管服務(wù)

2026-05-11 14:46:38　來源: AI前線

北京舉報(bào)

分享至

作者 | Steef-Jan Wiggers

譯者 | 明知山

Cloudflare 在 Agents Week 期間宣布 Agent Memory 已開啟私人測試。這是一項(xiàng)托管服務(wù)，可為 AI 智能體提供跨會話、上下文壓縮以及重啟后的持久化記憶能力。該服務(wù)無需把所有內(nèi)容都塞進(jìn)上下文窗口，而是從對話中提取結(jié)構(gòu)化記憶，只在需要時(shí)檢索相關(guān)內(nèi)容。Cloudflare 工程團(tuán)隊(duì)的 Tyson Trautmann 與 Rob Sutter 撰文表示：

我們之所以構(gòu)建 Agent Memory，是因?yàn)槠脚_上實(shí)際運(yùn)行的工作負(fù)載暴露出了現(xiàn)有方案無法徹底解決的短板。那些在真實(shí)代碼庫和生產(chǎn)系統(tǒng)中運(yùn)行數(shù)周乃至數(shù)月的智能體需要一種能夠隨規(guī)模擴(kuò)大持續(xù)可用的記憶能力，而不僅僅是在標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集上表現(xiàn)良好的記憶。

該服務(wù)解決了業(yè)界所說的上下文衰減（Context Rot）問題。即便上下文窗口已突破百萬級詞元，相關(guān)研究表明，隨著上下文不斷被填滿，模型輸出質(zhì)量會隨之下降。開發(fā)者陷入兩難困境：要么保留全部信息，任由輸出質(zhì)量下滑，要么大幅精簡內(nèi)容，但會丟失智能體后續(xù)所需的關(guān)鍵信息。研究還表明，模型在上下文更少、但內(nèi)容更相關(guān)的情況下能夠生成更優(yōu)質(zhì)的結(jié)果，這也讓記憶功能不再只是單純的存儲管理工具，更成為提升輸出質(zhì)量的重要手段。

Cartesian 首席軟件架構(gòu)師、InfoQ 編輯 Eran Stiller 在領(lǐng)英上指出，此次公告標(biāo)志著智能體系統(tǒng)設(shè)計(jì)思路正在發(fā)生更廣泛的轉(zhuǎn)變。“當(dāng)一個智能體需要用到記憶的那一刻，你面對的就不再是聊天問題，而是架構(gòu)問題。”Stiller 寫道。他認(rèn)為記憶“越來越不像是模型的特新，更像是基礎(chǔ)設(shè)施”，生命周期管理、有效性校驗(yàn)、信息壓縮與隔離邊界正成為重要的關(guān)注點(diǎn)。

對于從業(yè)者而言，架構(gòu)細(xì)節(jié)至關(guān)重要。在數(shù)據(jù)攝入端，每條消息都會分配一個基于內(nèi)容尋址的 SHA-256 標(biāo)識，以此來實(shí)現(xiàn)冪等重復(fù)攝入。提取器會并行運(yùn)行兩條處理通道：一條為寬泛通道，以約 10K 字符為單位進(jìn)行分塊處理；另一條為細(xì)節(jié)通道，專注于名稱、價(jià)格、版本號等具體數(shù)值信息。驗(yàn)證器會在記憶完成分類前執(zhí)行八項(xiàng)校驗(yàn)，將記憶劃分為四種類型：事實(shí)、事件、指令和任務(wù)。事實(shí)與指令按照歸一化主題進(jìn)行鍵值管理，新增記憶會覆蓋舊有記憶，而非直接刪除舊記憶。

在檢索端，五條通道并行運(yùn)行，并通過倒數(shù)排名融合（RRF）整合結(jié)果：全文搜索、精確事實(shí)鍵查找、原始消息搜索、直接向量搜索，以及通過生成聲明式答案來彌補(bǔ)詞匯不匹配問題的 HyDE 向量搜索。Cloudflare 默認(rèn)使用 Llama 4 Scout（17B MoE）完成信息提取與分類工作，僅在內(nèi)容合成時(shí)使用 Nemotron 3（120B MoE），發(fā)現(xiàn)更大的模型僅在合成階段能發(fā)揮作用。

Agent Memory 攝入流程圖，從對話輸入、驗(yàn)證和分類，再到存儲

共享記憶功能是 Agent Memory 突破單智能體記憶局限的關(guān)鍵。記憶檔案不必專屬于某一個智能體，團(tuán)隊(duì)可以共用同一份檔案，讓某位工程師的編碼智能體所學(xué)到的規(guī)范約定、架構(gòu)決策和隱性知識都能供全員共享使用。Cloudflare 內(nèi)部已經(jīng)在落地這項(xiàng)功能。接入 Agent Memory 的智能體代碼審查器學(xué)會了在特定模式曾被標(biāo)記且作者選擇保留的情況下自動保持靜默。

Kristopher Dunham 在對這項(xiàng)服務(wù)的詳細(xì)評測中指出了幾個值得權(quán)衡的取舍。關(guān)于供應(yīng)商鎖定問題，Dunham 指出：

“可導(dǎo)出”意味著你能夠提取原始事實(shí)，但并不代表你的檢索流程具備可移植性。

他還觀察到，提取質(zhì)量取決于開發(fā)者無法控制的次級模型，并建議對于關(guān)鍵事實(shí)主動調(diào)用 remember 工具，而非依賴自動攝入。對于準(zhǔn)備采用智能體記憶服務(wù)的團(tuán)隊(duì)，Dunham 建議先把對話歷史與習(xí)得事實(shí)做架構(gòu)層面的拆分，并在上下文窗口達(dá)到約 60% 時(shí)觸發(fā)壓縮，而非等到達(dá)到上限。

智能體記憶賽道正變得愈發(fā)擁擠。Mem0 提供搭載向量、圖譜與鍵值存儲的托管云 API。Zep 的 Graphiti 引擎采用時(shí)序知識圖譜，用來追蹤各類事實(shí)的有效存續(xù)時(shí)間。LangMem 可與 LangGraph 集成，但需要自行部署托管。Letta（原 MemGPT）提供分層記憶架構(gòu)，允許智能體自主管控自己的上下文。Cloudflare 這款產(chǎn)品的差異化優(yōu)勢在于邊緣分布式部署、與自身計(jì)算原語（Durable Objects、Vectorize、Workers AI）的深度集成，以及獨(dú)有的多通道檢索架構(gòu)。

Agent Memory 目前仍處于私人測試階段。在 Cloudflare 平臺上開發(fā)智能體的開發(fā)者可以加入等待列表，產(chǎn)品定價(jià)暫未公布。

https://www.infoq.com/news/2026/04/cloudflare-agent-memory-beta/

聲明：本文由 InfoQ 翻譯，未經(jīng)許可禁止轉(zhuǎn)載。

會議推薦

世界模型的下一個突破在哪？Agent 從 Demo 到工程化還差什么？安全與可信這道坎怎么過？研發(fā)體系不重構(gòu)，還能撐多久？

AICon 上海站 2026，4 大核心專題等你來：世界模型與多模態(tài)智能突破、Agent 架構(gòu)與工程化實(shí)踐、Agent 安全與可信治理、企業(yè)級研發(fā)體系重構(gòu)。14 個專題全面開放征稿。

誠摯邀請你登臺分享實(shí)戰(zhàn)經(jīng)驗(yàn)。AICon 2026，期待與你同行。

今日薦文

你也「在看」嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.