论智能体知识工程的局限与进化方向:从Karpathy的Wiki系统到下一代记忆架构
最近,Karpathy发布了一套新的知识管理系统。该系统旨在解决RAG(检索增强生成)检索知识不准确的问题。事实上,在Karpathy推出这个系统之前,我曾在春节期间(大约两三个月前)独立构建了一套几乎完全相同的系统。
当时,我投入了大量精力进行知识工程的构建,因为我曾认为知识研究是智能体(Agent)发展的瓶颈——智能体需要依赖知识来做出正确决策(尽管现在的观点已有所改变)。当Karpathy的系统发布并收获1700万浏览量时,我注意到它的实现方案与我的几乎一致:同样基于反向链接(Backlinks)构建电力领域的知识库,将所有内容整理为Wiki形式;同样增加了动态全局扫描、定期更新与生成新Wiki的功能。
然而,在我看来,这类系统的技术价值相对有限。通过Wiki整理知识确实能形成明确的结构,加速个人学习过程,但在实际的知识管理层面,其意义并没有那么大。Wiki生成后,并不能自动完成类目体系的梳理,它本质上只是内容的网络化呈现。尽管可以强制要求系统整理类目,但这已偏离了核心价值——对我们来说,建立纯粹的类目体系反而更为重要。此外,Wiki中过多的前后向链接在实际阅读中反而会造成信息过载,难以快速消化。
我开发的企业本体流程落地网站:http://sicbot.cn
知识工程的现状困境
当前的知识工程领域,即便是顶尖专家构建的系统,最终形态也都大同小异。这说明我们尚未找到一个真正优秀的知识工程方案,或者说,现有的方案(如基于Wiki的整理)只能达到目前的水平,在某些场景下勉强够用,但并非最优解。最终,仍需依赖人工进行翻译、理解、检索和使用。
从智能体架构的角度看,知识工程实际上与上下文(Context)和记忆体(Memory)密切相关——它们共同构成了Agent的”大脑”。这包括类似Claude Code中设计的十层精密记忆结构,其核心在于自动化地保存和归档记忆;而Karpathy的方案则强调通过反向链接自动化梳理知识的索引关系,这可以应用于解决长期记忆问题。但除此之外,这些技术并没有带来突破性的研究进展。
记忆系统的评估难题
记忆问题的核心难点在于评估。即便设计了精密的记忆架构,我们也难以验证其效果:能记住信息不等于能正确使用。检索结果与行动结果之间没有强关联,因为大模型本身具备基础知识,即便检索不到特定信息,它也可能答对。这类似于评估一个人的能力:我们无法仅通过”是否记住某件事”来判断其实际能力,而必须看其实际行动。这种评估的模糊性,导致记忆系统和知识利用率的架构难以被有效验证。
因此,这一方向目前面临两种可能性:要么这是一个伪命题,不存在所谓的”完美记忆系统”,现有方案已接近天花板;要么我们需要在模型层面或更底层的技术上实现迭代,才能触及问题的本质。
长期记忆的重新定位
如果与人脑神经系统类比,我们的记忆系统仍有升级空间。但我认为,人脑的记忆宫殿并非先进范式——人类生存主要依赖短期记忆,长期记忆则依赖书本、笔记和现代电脑辅助。随着外部工具的强化,人类的长期记忆能力实际上在退化,因为不再必需。
既然人脑并非理想参照,智能体的长期记忆架构就需要寻找新的发展方向。同时,Wiki方式本质上是希望人工介入知识管理,而十层记忆架构则追求全自动、无需人工干预,这是两种截然不同的哲学。
当链接数量激增、文档规模扩大后,人工管理将变得不可行。在大模型时代,知识生成变得极其简单(消耗数万Token即可生成大量内容),但没人能阅读完这些输出。因此,我们的目标应该是让大模型做信息筛选,而非信息生成。它生成的内容太多,我们用不过来。更好的方式是让模型担任信息策展人(Curator),而非内容生产者。
Wiki本身也是一种信息筛选,它删除了冗余信息,仅保留核心链路并串联信息。但后续通过Wiki自动生成新Wiki的自动化过程,可能难以控制。其核心仍在于前段的信息筛选与压缩。之所以采用Wiki形式,是因为人类社会知识的记录方式历经多个版本迭代,Wiki已被证明是一种有效的社群协作模式,能够长期维护高质量文档,同时减少不必要信息对人整理工作的干扰,萃取高价值信息。这个方向本身是正确的。
优秀知识系统的标准
那么,如何衡量一个记忆系统或知识系统的优劣?我认为,一个好的系统应该具备以下特质:
可定制化:并非所有信息都需要永久保存,系统应能选择性地保留或删除信息。
高命中率:作为智能体的”大脑”,其优秀程度体现在知识的使用上。任务完成质量一方面取决于执行路径,另一方面取决于能否准确调用所需知识。知识不是越多越好,而是越准越好。它需要命中精准的知识片段(且往往是多片段的组合),命中率越高、越精准越好。
灵活的推理链路:知识的推理路径不应固定,但必须正确。由于有多种推理方法都能召回精准的知识,我们不能强求唯一路径。这类似于在仓库中取物,存在多条路径,只要最终内容符合目标即可。因此,评估不应关注路径本身,而应关注结果。但结果又依赖于行动,我们很难确定知识解释是否真的赋能了行动——也许看上去正确,但实际效果很差,中间还隔着大模型的翻译过程。
创造力的终极考验
目前缺乏好的评估标准和任务来验证这些能力。是否存在纯靠大脑能力和知识能力解决的问题?这很难定义。
从人类认知角度考虑,一个可能的场景是:精神层面的创造性演进。例如,当我们阅读观点各异的书籍时,能否基于碎片化知识,通过深度思考推翻旧观点、创立新观点,完成认知的蜕变?这应该是知识系统和记忆系统未来发展的方向——站在过去的知识碎片上进行开创性、创造性的认知构建,产生全新的链接或知识点,具备强大的泛化能力。
如果从这个角度定义优秀的知识系统,它应该支持联想、发散、总结和深度探索。过去在大模型技术发展中,我们已有”Think”过程和”Deep Research”范式,它们能通过自生成方式改变提示词上下文分布,使其更接近答案分布,从而在现有状态空间中探索新解。但此前我们并未将其明确定义为”提升大脑能力”的范式或系统性的研发任务。
对于智能体的大脑能力(知识、推理、记忆),确实有必要结合记忆、推理和知识应用,发掘新的规律,实现发明创造,解决逻辑推理难题。但我们知道,大模型本质上是统计模型,是概念的复现而非真正的逻辑推理。这决定了该方向目前几乎不可能实现突破——大模型倾向于均值回归,而创新性必然存在于长尾分布中。
如果能让大模型解决长尾问题,它才具备真正的思考能力。但问题在于,如何让生成模型突破统计均值?它可以思考更久,但这只是让结果更接近答案分布,而非真正发现问题。如果给大模型一些知识,它能通过推理解决此前无法解决的问题,且消融实验(Ablation Study)证明这些推理确实改善了结果,那便有意义;反之则无意义。但评估这种”帮助”极其困难,因为添加的知识可能与目标并不直接相关。
构建”智商系统”的核心思路
总结来看,我们应该建立一套智商系统(IQ System),其特点是:
- 记住通用规律,而非具体实例
:系统应记住”如何做四川菜”的通用方法,而非每一种四川菜的具体做法。通用的部分不重复记录,保留泛化和推演能力。
- 任务驱动的知识蒸馏
:核心知识库的整理必须基于任务需求,解决什么任务就蒸馏什么知识,避免无关信息。
- 结构优化
:内部尽量减少重复和冗余,增加方法论层面的抽象,而非堆砌个例。好的知识维护关键在于”仅能抽象,尽量抽象”——抽象完成后,下层具体实例可以删除。
- 通过归纳法实现抽象
:收集所有任务相关的知识,通过数学归纳法找出关联规律,用统一规律描述多份知识,然后删除重复内容。即:抽象、统一、删除。
未来知识库的发展方向应是大脑的抽象程度越来越高,需要记住的东西越来越少,但仍能完成同样的任务。智能体需要做的就是找到相关联的知识,并发现它们之间的规律。通过数学归纳法进行知识加工整理,是目前直接且有效的方案——假设内容中存在可被抽取的规律,一旦抽取成功,知识便可被统一抽象。
这,才是知识工程真正应该追求的技术突破方向。
