当前位置：首页 > news >正文

Karpathy LLM Knowledge Base 体验及教程分享

news 2026/6/9 7:38:56

Karpathy 最近（ 2026年4月）在社交平台上分享的LLM Knowledge Base (也叫 LLM Wiki)带火了一套新的“玩耍方式”。这套思路的核心是把传统的 RAG（检索增强生成）推倒重来，用“编译”的思想去管理个人知识库。使用场景：梳理混乱的知识

这里的 wiki 指的是什么？一种组织知识的架构方式。形式上：它是互联的 Markdown 文件库

和 RAG 的区别

1. 从“碎片化”转向“结构化”

传统 RAG 的痛点：它是“断章取义”的。当你问一个复杂问题时，系统会从 10 篇文档里切出 50 个片段塞给 AI。AI 面对的是一堆逻辑破碎的纸条，很容易产生“幻觉”或遗漏关键上下文。
Karpathy 模式的优点：在你提问之前，LLM 已经把这 10 篇文档预先消化并合成了一个逻辑自洽的 Wiki 页面。（利用大模型去对知识建立链接，有逻辑）

2. 可读性与“自我修复”

传统 RAG 的痛点：向量数据库是一个黑盒。你不知道里面存了什么，也很难手动去改一个向量。
Karpathy 模式的优点：最终产物是Markdown 文件。它是人类可读的。如果你发现 AI 总结得不对，你可以直接像改代码一样改掉它。

3. 适配“超长上下文”时代

传统 RAG 的背景：诞生于 LLM 只能读几千个 Token 的时代，所以必须切片。
Karpathy 模式的背景：现在的 Claude 3.5 或 GPT-4o 动辄支持 200k 甚至 1M 的上下文

体验一下

第一阶段

1. 下载并安装 Obsidian，它本质上是一个 Markdown 编辑器，但它的双向链接和图谱功能是 LLM Wiki 的物理基础

2. 在 Obsidian 的仓库里右键新建以下文件夹

`00_Inbox`	原材料库	存放所有未经处理的原始抓取文档（Markdown、PDF 转的文本）
`02_Wiki`	成品区 (核心)	LLM 编写的百科页面（Concept pages）。这是你真正查询的地方
`03_System`	控制室	存放所有的 Prompts、脚本文件以及全局索引（Index.md）

3. 配置抓取工具：Obsidian Web Clipper（ LLM 无法直接阅读凌乱的网页。我们需要将信息转化成纯净的 Markdown ）

在浏览器安装插件
在插件设置中，将Vault指向你的LLM_Knowledge_Base
将Folder设为00_Inbox
模板设置：确保抓取时保留Source URL（原文链接）和Date。这些元数据对 LLM 溯源非常重要。

--- title: "{{title}}" url: {{url}} author: {{author}} captured_date: {{date}} tags: - inbox - paper/3DGS --- # {{title}} > [!abstract] 来源摘要 > {{description}} --- {{content}}

4. 准备“执行官”：Claude Code。我使用的是 GitHub copilot anget 模式，让 AI 来管理你这个仓库即可。

第二阶段

Prompt 不再是临时的聊天记录，而是你的“代码”。我们将编写一个Knowledge Compiler（知识编译器）。它的任务是：扫描00_Inbox里的杂乱文档，提取核心概念，并按照统一的规格“编译”到02_Wiki中

在你的03_System文件夹下，新建一个文件叫Wiki_Compiler_v1.md

这里的使用场景我选择的是自己的论文阅读，大家按自己的需求撰写即可

# Role: LLM Wiki Knowledge Architect ## Context 你是一个专门负责构建“3D 视觉与 AI 知识库”的架构师。你的目标是将原始的学术论文、代码文档转化为一套结构化、高度互联且逻辑严密的 Markdown 百科。 ## Task: The Compilation Step 1. **分析输入**：读取 `00_Inbox` 中的指定文件。 2. **提取实体 (Entity Extraction)**：识别文中的核心技术概念（例如：$3DGS$, $SH\ Coefficients$, $Anisotropic\ Covariance$ 等）。 3. **知识建模**： - 如果该概念在 `02_Wiki` 中不存在，创建一个新文件。 - 如果已存在，则将新发现的信息（如新的优化技巧、公式推导）通过“增量更新”的方式合并进去。 4. **建立链接**：在文中所有提到的核心概念处，使用 `[[概念名称]]` 语法建立双向链接。 ## Output Standard (Wiki Page Template) 每一个生成的 Wiki 页面必须严格遵守以下格式： --- # [概念名称] - **所属领域**: #NeRF #3DGS #PorcelainReconstruction - **定义**: 一句话解释该概念。 - **数学原理**: - 使用 LaTeX 描述核心公式。例如：$$L = \lambda_1 L_1 + \lambda_2 L_{SSIM}$$ - **在瓷器重建中的应用/挑战**: (结合用户研究背景，如：高反光、纹理对称性等)。 - **相关链接**: 列出 3-5 个 `[[关联概念]]`。 - **来源**: 引用原始文件路径。 --- ## Rules - 严禁断章取义，确保逻辑闭环。 - 所有的数学公式必须使用 $inline$ 或 $$display$$。 - 保持语言专业、简洁，像 Wikipedia 一样中立。

运行这个“编译器”（让 AI 干活）：#file:Wiki_Compiler_v1.md 按照这个规则处理 #file:00_Inbox 文件夹里的文件，并更新到 #file:02_Wiki 目录

第三阶段

作用：让 LLM 担任“图书管理员”，自动维护全局地图，并修复知识库的缺陷

在03_System目录下新建一个文件：Maintenance_Bot.md

# Role: Knowledge Base Maintenance & Indexing Agent ## Context 你负责维护一个关于“3D瓷器重建与AI”的知识库。当前目录是 `02_Wiki`。 ## Task 1: Generate Master Index 1. 扫描 `02_Wiki` 下的所有 Markdown 文件。 2. 在 `03_System/Index.md` 中生成一个结构化的导航图。 3. 分类标准： - **基础理论** (数学、SfM, 多视图几何) - **核心技术** (NeRF, 3DGS, 渲染算法) - **领域应用** (瓷器高反光处理、对称性先验、点云采集) - **待补全** (尚未创建但被引用的概念) ## Task 2: Self-Healing (自愈) 1. **识别红链**：寻找所有 `[[ ]]` 语法引用但 `02_Wiki` 中不存在对应文件的链接。 2. **生成占位符 (Stubs)**：对于缺失的关键概念，在 `02_Wiki` 下创建一个极简页面，包含标题和“待补全”标签。 3. **一致性检查**：如果发现多个页面提到了相同的公式（如 3DGS 的协方差矩阵公式），确保它们定义统一。 ## Output Format - 在 `03_System/Index.md` 更新索引。 - 在 Copilot 对话框中列出你新创建的“占位符”文件清单。

指令：依据 @Maintenance_Bot.md 的规则，扫描 @02_Wiki 文件夹。更新 Index.md 并修复所有缺失的红链页面

看看效果咋样 dog

查看全文

http://www.jsqmd.com/news/605687/