过去 AI 智能体的"记忆"一直只是埋在工具里的附属功能,比如 ChatGPT 的 Memory、LangChain 的 ConversationBufferMemory。但进入 2026 年后,风向变了。记忆本身成了一个独立的基础设施品类,mem0 在 GitHub 上拿下 47.8K 星标,并完成 2400 万美元 A 轮融资。 Letta 走全栈智能体运行时(Agent Runtime)路线,OpenAI Memory 则把自家方案直接塞进 ChatGPT 里。三家给出的答案完全不同,而首次同时测量准确率和延迟的 LOCOMO 基准测试公开后,优劣开始显现。

3秒速览
对话累积 记忆抽取与存储 检索相关记忆 注入提示词 个性化回答

这是什么?

以前大家都说"RAG 就是记忆":把对话日志塞进向量数据库,用相似度检索取出来就完事。可 LOCOMO 基准测试把这个假设彻底打碎了。从 mem0 在 4 月 1 日公开的结果来看,纯 RAG 准确率只有 61%,ChatGPT Memory 更低,只有 52.9%。 而 Mem0 达到 66.9%,结合图谱记忆的 Mem0g 提升到 68.4%;把全部上下文塞进 LLM 的 Full-context 方式准确率最高,达到 72.9%,但响应要 9.87 秒,Mem0g 只要 1.09 秒。

记忆已经定型为"准确率 vs 延迟"的取舍问题,想解决这个问题的公司就独立出来,做成了一个新的基础设施品类。

把记忆埋在工具里,有两件事做不到。第一,多个智能体没法共享同一个用户的信息。在 ChatGPT 里说过的话,Claude 那边收不到。第二,没法把对话之外的数据(邮件、文档、CRM)整合到统一记忆里。这两件事本质上都来自工具绑定带来的限制。所以把记忆抽出来、让任何 LLM 和任何智能体都能挂上去用 — 这就是 mem0、Letta、Zep 等新品类的由来。

  1. 情景记忆(Episodic memory)
    记录"上周二用户让我查一下 Cursor 3"这种事件,关键在于时间顺序。
  2. 语义记忆(Semantic memory)
    "这个用户是全栈开发者,偏好 Next.js"这种通用事实,与时间无关。
  3. 过程记忆(Procedural memory)
    "开新项目时总是先建 .env"这种行为模式,属于学到的流程。

能在同一个系统里同时处理这三类记忆,才是 2026 年记忆基础设施的标配要求。

有什么不同?

mem0、Letta、OpenAI Memory 都说自己在解决同一个问题,但拿出的答案完全相反。整理如下。

维度 Mem0 Letta OpenAI Memory
方案路线 插件式(Bolt-on)库 全栈智能体运行时 ChatGPT 内置功能
锁定成本 低(几天可替换) 高(2~6 周) 极高(绑定 ChatGPT)
作用域 user_id / agent_id / run_id / app_id 四级 core / recall / archival 三级 全局单一作用域
基准准确率 66.9%(Mem0g 68.4%) 500+ 轮交互保持一致 52.9%
价格 免费 1K/月,Pro 249 美元/月 开源 + 云服务 含在 ChatGPT Plus 20 美元/月内
适用场景 切换多种 LLM 的多智能体 长期运行的自主智能体 个人 ChatGPT 用户

Mem0 走的是"记忆是一个库"的路线。无论 OpenAI、Anthropic 还是 Gemini,都能在切换时复用同一套记忆层。它支持 21 个框架和 19 个向量存储后端。 核心价值就是可移植性,模型换了,用户的记忆也跟着走。

Letta 走的是"记忆是一个操作系统"的路线。这家公司源自 MemGPT 论文,把记忆分成 core、recall、archival 三层,像操作系统那样管理。智能体能自主编辑、压缩、提升自己的记忆。 代价是锁定成本高,一旦把系统搭在 Letta 上,迁移到别处需要 2~6 周。

OpenAI Memory 还停留在"记忆只是 ChatGPT 的一项功能",所以在 LOCOMO 上以 52.9% 垫底。

Letta 跟踪的另一项基准里,Letta 经过 500 轮以上交互仍能保持一致性,而普通 RAG 超过 50 轮记忆就开始碎片化。 简单判断:需要长期运行就选 Letta,需要多模型/多智能体就选 mem0。

注意 — 为什么不能只用 OpenAI Memory
如果一切工作都在 ChatGPT 里完成,那它够用了。但如果你做侧项目搭智能体,或者希望 Claude Code、Cursor 也能共享同一份用户上下文,OpenAI Memory 就是个封闭系统,限制很明显。它没有对外 API。

上手指南

用三个实战标准压缩成下面这条决策流程,跟着走能快速决定。

  1. "以后会不会切换不同的 LLM?"
    是 → Mem0。否 → 进入下一题。
  2. "智能体是否要按几天到几周的周期自主运行?"
    是 → Letta。否 → 进入下一题。
  3. "工作是否完全在 ChatGPT 内部完成?"
    是 → OpenAI Memory。否 → 回到 Mem0 起步。

从实际落地案例看,Mem0 免费版每月允许 1K 条记忆,适合做侧项目起步。要承担正式负载的话,Pro 套餐 249 美元/月起,届时图谱记忆(Mem0g)会启用,准确率再提升 1.5 个百分点。 Letta 开源核心免费,托管云按用量计费,起步成本几乎为零。

另外值得一提的是 OpenMemory MCP。这是 mem0 推出的本地优先版本,只把记忆存到用户设备上,通过 MCP 协议让所有智能体访问。 如果工作对隐私要求高,与其用云端记忆,不如直接选它。

深入了解

Mem0 官方 LOCOMO 基准测试 — 4 月 1 日公开 Mem0g 68.4% / 1.09 秒 vs OpenAI Memory 52.9%。首次同时测量准确率与延迟的公开对比 mem0.ai

Mem0 vs Letta vs MemGPT 锁定分析 系统替换为何需要几天 vs 2~6 周,库 / 运行时 / 研究型开源在结构上的差异 tokenmix.ai

2026 AI 智能体记忆工具 8 选 Mem0、Zep、Pinecone、Letta、LangMem、Weaviate、Neo4j、Redis 的价格与适配工作负载 techsy.io

Mem0 ECAI 2025 论文 arXiv:2504.19413,相比 RAG 准确率提升 26%、延迟降低 91% 的依据 arxiv.org