当前位置：首页 > news >正文

OpenClaw如何做好记忆持久化的 · 六、经济学与可扩展性——记忆的代价

news 2026/6/7 23:00:22

六、经济学与可扩展性——记忆的代价

⏱ 30 秒速览| 中度使用（日均 50 次对话）纯记忆附加成本：~$5/月（Claude Sonnet）/ ~$1/月（GPT-4o-mini）。72% 花在记忆注入，24% 花在自动提取，检索管线 0 LLM token。存储一年 ~70MB 向量 + ~800MB 转录。关键发现：自稳态 (Homeostatic Memory)——系统在 6-12 个月达到写入 ≈ 衰减的动态平衡，记忆条数自动收敛到 ~2,500。JSONL 个人场景够用，团队场景有天花板。

记忆不是免费的。每一次提取、去重、检索和注入都消耗 Token，每一条记忆都占用存储。这一章用 back-of-envelope 估算回答三个问题：日常使用记忆要花多少钱？记忆会不会无限膨胀？JSONL 的天花板在哪里？

6.1 Token 成本估算（Back-of-Envelope）

以memory-lancedb-pro的典型配置为基准，拆解一天 50 次交互场景下各环节的 Token 消耗：

环节	触发频率	每次 Token 开销	日均估算（50 次交互/天）
Auto-Capture（Smart Extraction）	约 50%`agent_end`（通过噪声过滤）	~300 input + ~100 output	~10,000 tokens
去重判断（LLM MERGE/CREATE/SKIP）	上述的 ~30% 需去重	~200 input + ~50 output	~1,900 tokens
Auto-Recall（混合检索管线）	每次`before_prompt_build`	向量+BM25+本地 CE——不消耗 LLM API token¹	0 tokens
Cross-Encoder 重排	含在上一步管线中	本地小型 transformer，~50ms CPU 推理	0 tokens
记忆注入（Top-K 结果）	每次请求	~600 tokens（~10 条 × 60 tokens）	~30,000 tokens
合计	—	—	~42,000 tokens/天

¹ 混合检索管线的 8 步操作（Vector ANN、BM25、Hybrid Fusion、Cross-Encoder、Weibull 衰减、Length Normalization、MMR、Hard Min Score）全部在本地完成或通过 Embedding API 执行。查询向量化的 Embedding API 成本极低（约 $0.001/天），此处忽略。

几个值得注意的细节：

整条混合检索管线不消耗 LLM API Token。ANN 向量搜索、BM25 全文检索、Cross-Encoder 精排——全部在本地完成，成本体现为 CPU 推理时间（~50ms），不体现在账单上。
记忆注入是最大的 Token 消耗点（~72%），Auto-Capture 次之（~24%）。注入 Token 虽然量大，但这正是记忆系统的价值交付——它让 LLM 从"无记忆"变成"有上下文"，边际效益极高。
噪声过滤显著降低了处理成本：约 50% 的对话在 LLM 调用前即被过滤（问候语、过短内容等），使 Smart Extraction 的实际触发量减半。

按 Claude Sonnet 定价（$3/M input，$15/M output）：中档场景约$0.16/天，$5/月。其中记忆注入（input）占约 72%，Smart Extraction 和去重决策合计占约 28%。

三档使用强度的成本对比：

使用强度	日均交互	日均附加 Token	月成本（Claude Sonnet）	月成本（GPT-4o-mini）
轻度（休闲聊天）	~15 次	~12,600	~$1.4	~$0.3
中度（日常工作）	~50 次	~42,000	~$5	~$1.0
重度（全天候开发）	~120 次	~100,000	~$11.5	~$2.3

注意：以上是纯记忆层的附加成本，不含主对话的 Token 消耗。实际总账单 = 主对话 Token + 记忆附加 Token。Cross-Encoder 重排在本地运行，不产生 API Token 费用。

对比参照：ChatGPT Plus 订阅 $20/月含记忆、Claude Pro $20/月含 Projects——但它们的订阅价同时包含了 LLM 基础使用量。OpenClaw 的纯记忆层附加成本远低于此（$1.4–$11.5/月），但你仍需单独支付底层 LLM API 费用（取决于模型和用量）。因此 OpenClaw 的经济学优势不在于"绝对更便宜"，而在于：（1）按用量计费——轻度用户成本极低；（2）完全的数据控制权和方案选择权。

6.2 存储增长曲线

记忆条数不会线性增长——Weibull 衰减和六步 Maintenance 持续淘汰噪声记忆：

使用时长	估算记忆条数	LanceDB 存储	JSONL 转录
1 周	~150 条（约 50% 对话触发提取）	~4 MB	~20 MB
1 月	~500 条（含去重 MERGE/SKIP 淘汰）	~12 MB	~80 MB
6 月	~1,800 条（含 Weibull 衰减淘汰）	~45 MB	~400 MB
1 年	~2,500 条（稳态：新增 ≈ 衰减淘汰）	~70 MB	~800 MB

关键观察：

记忆条数增长是亚线性的。一年后约 2,500 条——不是因为你只产生了这么多记忆，而是因为 Weibull 衰减持续淘汰低价值记忆，去重 MERGE 持续合并重复记忆。系统在"写入"和"遗忘"之间达到了动态平衡——这是一个自稳态记忆系统 (Homeostatic Memory)，类似生态学中的承载力上限：环境（Token 预算和存储）对种群（记忆条数）施加了自然约束，系统自动收敛到可持续的规模。一个不会自我限制的记忆系统，反而是设计失败的标志。
LanceDB 存储非常紧凑。一年约 70 MB——这得益于向量维度压缩和 Lance 列式存储格式。
JSONL 是存储大户。一年约 800 MB——因为它记录的是完整的对话历史，不仅仅是提取后的记忆摘要。但 800 MB 对现代磁盘来说几乎可以忽略不计。
稳态出现在约 6-12 个月。此后新增记忆数量约等于衰减淘汰数量，总存储增长显著放缓。

6.3 JSONL 的天花板在哪里

第四章说"JSONL + 文件优先"是一个务实的设计决策。但务实不等于完美——JSONL 有明确的天花板：

单文件性能：JSONL 逐行追加写入，读取需全量扫描。当单个 session 文件超过 ~50MB（约 10 万条消息）时，加载延迟明显。
并发限制：单 Gateway 写入保证一致性，但也意味着写入不可水平扩展。如果你需要多个 Gateway 并行写入同一个会话文件——做不到。
崩溃风险：如第五章 §5.2 所述，进程崩溃 mid-write 可能产生损坏行。没有 WAL、没有事务日志。
缓解方案：Session Maintenance 的rotate store步骤会自动轮转大文件；实际使用中，因为会话重置机制，单文件很少超过阈值。
长期方向：官方memory-core重构可能引入更高效的存储后端——但目前没有公开的技术选型信息。

So What：对个人使用场景（1~3 个 Agent，日均数十次交互），JSONL 完全够用且优势明显——简单、可读、可迁移、零依赖。但对团队/企业场景——多用户并发、SLA 要求、审计合规——需要关注存储增长并可能需要定制存储层。这是一个明确的能力边界，而不是一个需要辩护的弱点。[成本] [延迟]