当前位置：首页 > news >正文

论智能体知识工程的局限与进化方向：从Karpathy的Wiki系统到下一代记忆架构

news 2026/6/17 20:20:21

最近，Karpathy发布了一套新的知识管理系统。该系统旨在解决RAG（检索增强生成）检索知识不准确的问题。事实上，在Karpathy推出这个系统之前，我曾在春节期间（大约两三个月前）独立构建了一套几乎完全相同的系统。

当时，我投入了大量精力进行知识工程的构建，因为我曾认为知识研究是智能体（Agent）发展的瓶颈——智能体需要依赖知识来做出正确决策（尽管现在的观点已有所改变）。当Karpathy的系统发布并收获1700万浏览量时，我注意到它的实现方案与我的几乎一致：同样基于反向链接（Backlinks）构建电力领域的知识库，将所有内容整理为Wiki形式；同样增加了动态全局扫描、定期更新与生成新Wiki的功能。

然而，在我看来，这类系统的技术价值相对有限。通过Wiki整理知识确实能形成明确的结构，加速个人学习过程，但在实际的知识管理层面，其意义并没有那么大。Wiki生成后，并不能自动完成类目体系的梳理，它本质上只是内容的网络化呈现。尽管可以强制要求系统整理类目，但这已偏离了核心价值——对我们来说，建立纯粹的类目体系反而更为重要。此外，Wiki中过多的前后向链接在实际阅读中反而会造成信息过载，难以快速消化。

我开发的企业本体流程落地网站：http://sicbot.cn

知识工程的现状困境

当前的知识工程领域，即便是顶尖专家构建的系统，最终形态也都大同小异。这说明我们尚未找到一个真正优秀的知识工程方案，或者说，现有的方案（如基于Wiki的整理）只能达到目前的水平，在某些场景下勉强够用，但并非最优解。最终，仍需依赖人工进行翻译、理解、检索和使用。

从智能体架构的角度看，知识工程实际上与上下文（Context）和记忆体（Memory）密切相关——它们共同构成了Agent的”大脑”。这包括类似Claude Code中设计的十层精密记忆结构，其核心在于自动化地保存和归档记忆；而Karpathy的方案则强调通过反向链接自动化梳理知识的索引关系，这可以应用于解决长期记忆问题。但除此之外，这些技术并没有带来突破性的研究进展。

记忆系统的评估难题

记忆问题的核心难点在于评估。即便设计了精密的记忆架构，我们也难以验证其效果：能记住信息不等于能正确使用。检索结果与行动结果之间没有强关联，因为大模型本身具备基础知识，即便检索不到特定信息，它也可能答对。这类似于评估一个人的能力：我们无法仅通过”是否记住某件事”来判断其实际能力，而必须看其实际行动。这种评估的模糊性，导致记忆系统和知识利用率的架构难以被有效验证。

因此，这一方向目前面临两种可能性：要么这是一个伪命题，不存在所谓的”完美记忆系统”，现有方案已接近天花板；要么我们需要在模型层面或更底层的技术上实现迭代，才能触及问题的本质。

长期记忆的重新定位

如果与人脑神经系统类比，我们的记忆系统仍有升级空间。但我认为，人脑的记忆宫殿并非先进范式——人类生存主要依赖短期记忆，长期记忆则依赖书本、笔记和现代电脑辅助。随着外部工具的强化，人类的长期记忆能力实际上在退化，因为不再必需。

既然人脑并非理想参照，智能体的长期记忆架构就需要寻找新的发展方向。同时，Wiki方式本质上是希望人工介入知识管理，而十层记忆架构则追求全自动、无需人工干预，这是两种截然不同的哲学。

当链接数量激增、文档规模扩大后，人工管理将变得不可行。在大模型时代，知识生成变得极其简单（消耗数万Token即可生成大量内容），但没人能阅读完这些输出。因此，我们的目标应该是让大模型做信息筛选，而非信息生成。它生成的内容太多，我们用不过来。更好的方式是让模型担任信息策展人（Curator），而非内容生产者。

Wiki本身也是一种信息筛选，它删除了冗余信息，仅保留核心链路并串联信息。但后续通过Wiki自动生成新Wiki的自动化过程，可能难以控制。其核心仍在于前段的信息筛选与压缩。之所以采用Wiki形式，是因为人类社会知识的记录方式历经多个版本迭代，Wiki已被证明是一种有效的社群协作模式，能够长期维护高质量文档，同时减少不必要信息对人整理工作的干扰，萃取高价值信息。这个方向本身是正确的。

优秀知识系统的标准

那么，如何衡量一个记忆系统或知识系统的优劣？我认为，一个好的系统应该具备以下特质：

可定制化：并非所有信息都需要永久保存，系统应能选择性地保留或删除信息。

高命中率：作为智能体的”大脑”，其优秀程度体现在知识的使用上。任务完成质量一方面取决于执行路径，另一方面取决于能否准确调用所需知识。知识不是越多越好，而是越准越好。它需要命中精准的知识片段（且往往是多片段的组合），命中率越高、越精准越好。

灵活的推理链路：知识的推理路径不应固定，但必须正确。由于有多种推理方法都能召回精准的知识，我们不能强求唯一路径。这类似于在仓库中取物，存在多条路径，只要最终内容符合目标即可。因此，评估不应关注路径本身，而应关注结果。但结果又依赖于行动，我们很难确定知识解释是否真的赋能了行动——也许看上去正确，但实际效果很差，中间还隔着大模型的翻译过程。

创造力的终极考验

目前缺乏好的评估标准和任务来验证这些能力。是否存在纯靠大脑能力和知识能力解决的问题？这很难定义。

从人类认知角度考虑，一个可能的场景是：精神层面的创造性演进。例如，当我们阅读观点各异的书籍时，能否基于碎片化知识，通过深度思考推翻旧观点、创立新观点，完成认知的蜕变？这应该是知识系统和记忆系统未来发展的方向——站在过去的知识碎片上进行开创性、创造性的认知构建，产生全新的链接或知识点，具备强大的泛化能力。

如果从这个角度定义优秀的知识系统，它应该支持联想、发散、总结和深度探索。过去在大模型技术发展中，我们已有”Think”过程和”Deep Research”范式，它们能通过自生成方式改变提示词上下文分布，使其更接近答案分布，从而在现有状态空间中探索新解。但此前我们并未将其明确定义为”提升大脑能力”的范式或系统性的研发任务。

对于智能体的大脑能力（知识、推理、记忆），确实有必要结合记忆、推理和知识应用，发掘新的规律，实现发明创造，解决逻辑推理难题。但我们知道，大模型本质上是统计模型，是概念的复现而非真正的逻辑推理。这决定了该方向目前几乎不可能实现突破——大模型倾向于均值回归，而创新性必然存在于长尾分布中。

如果能让大模型解决长尾问题，它才具备真正的思考能力。但问题在于，如何让生成模型突破统计均值？它可以思考更久，但这只是让结果更接近答案分布，而非真正发现问题。如果给大模型一些知识，它能通过推理解决此前无法解决的问题，且消融实验（Ablation Study）证明这些推理确实改善了结果，那便有意义；反之则无意义。但评估这种”帮助”极其困难，因为添加的知识可能与目标并不直接相关。

构建”智商系统”的核心思路

总结来看，我们应该建立一套智商系统（IQ System），其特点是：

记住通用规律，而非具体实例
：系统应记住”如何做四川菜”的通用方法，而非每一种四川菜的具体做法。通用的部分不重复记录，保留泛化和推演能力。
任务驱动的知识蒸馏
：核心知识库的整理必须基于任务需求，解决什么任务就蒸馏什么知识，避免无关信息。
结构优化
：内部尽量减少重复和冗余，增加方法论层面的抽象，而非堆砌个例。好的知识维护关键在于”仅能抽象，尽量抽象”——抽象完成后，下层具体实例可以删除。
通过归纳法实现抽象
：收集所有任务相关的知识，通过数学归纳法找出关联规律，用统一规律描述多份知识，然后删除重复内容。即：抽象、统一、删除。

未来知识库的发展方向应是大脑的抽象程度越来越高，需要记住的东西越来越少，但仍能完成同样的任务。智能体需要做的就是找到相关联的知识，并发现它们之间的规律。通过数学归纳法进行知识加工整理，是目前直接且有效的方案——假设内容中存在可被抽取的规律，一旦抽取成功，知识便可被统一抽象。

这，才是知识工程真正应该追求的技术突破方向。

查看全文

http://www.jsqmd.com/news/700831/