当前位置: 首页 > news >正文

Karpathy LLM Knowledge Base 体验及教程分享

Karpathy 最近( 2026年4月 )在社交平台上分享的LLM Knowledge Base (也叫 LLM Wiki)带火了一套新的“玩耍方式”。这套思路的核心是把传统的 RAG(检索增强生成)推倒重来,用“编译”的思想去管理个人知识库。使用场景:梳理混乱的知识

这里的 wiki 指的是什么?一种组织知识的架构方式。形式上:它是互联的 Markdown 文件库

和 RAG 的区别

1. 从“碎片化”转向“结构化”

  • 传统 RAG 的痛点:它是“断章取义”的。当你问一个复杂问题时,系统会从 10 篇文档里切出 50 个片段塞给 AI。AI 面对的是一堆逻辑破碎的纸条,很容易产生“幻觉”或遗漏关键上下文。

  • Karpathy 模式的优点:在你提问之前,LLM 已经把这 10 篇文档预先消化并合成了一个逻辑自洽的 Wiki 页面。( 利用大模型去对知识建立链接,有逻辑 )

2. 可读性与“自我修复”

  • 传统 RAG 的痛点:向量数据库是一个黑盒。你不知道里面存了什么,也很难手动去改一个向量。

  • Karpathy 模式的优点:最终产物是Markdown 文件。它是人类可读的。如果你发现 AI 总结得不对,你可以直接像改代码一样改掉它。

3. 适配“超长上下文”时代

  • 传统 RAG 的背景:诞生于 LLM 只能读几千个 Token 的时代,所以必须切片。

  • Karpathy 模式的背景:现在的 Claude 3.5 或 GPT-4o 动辄支持 200k 甚至 1M 的上下文

体验一下

第一阶段

1. 下载并安装 Obsidian,它本质上是一个 Markdown 编辑器,但它的双向链接图谱功能是 LLM Wiki 的物理基础

2. 在 Obsidian 的仓库里右键新建以下文件夹

00_Inbox原材料库存放所有未经处理的原始抓取文档(Markdown、PDF 转的文本)
02_Wiki成品区 (核心)LLM 编写的百科页面(Concept pages)。这是你真正查询的地方
03_System控制室存放所有的 Prompts、脚本文件以及全局索引(Index.md)

3. 配置抓取工具:Obsidian Web Clipper( LLM 无法直接阅读凌乱的网页。我们需要将信息转化成纯净的 Markdown )

  • 在浏览器安装插件

  • 在插件设置中,将Vault指向你的LLM_Knowledge_Base

  • Folder设为00_Inbox

  • 模板设置:确保抓取时保留Source URL(原文链接)和Date。这些元数据对 LLM 溯源非常重要。

--- title: "{{title}}" url: {{url}} author: {{author}} captured_date: {{date}} tags: - inbox - paper/3DGS --- # {{title}} > [!abstract] 来源摘要 > {{description}} --- {{content}}

4. 准备“执行官”:Claude Code。我使用的是 GitHub copilot anget 模式,让 AI 来管理你这个仓库即可。

第二阶段

Prompt 不再是临时的聊天记录,而是你的“代码”。我们将编写一个Knowledge Compiler(知识编译器)。它的任务是:扫描00_Inbox里的杂乱文档,提取核心概念,并按照统一的规格“编译”到02_Wiki

在你的03_System文件夹下,新建一个文件叫Wiki_Compiler_v1.md

这里的使用场景我选择的是自己的论文阅读,大家按自己的需求撰写即可

# Role: LLM Wiki Knowledge Architect ## Context 你是一个专门负责构建“3D 视觉与 AI 知识库”的架构师。你的目标是将原始的学术论文、代码文档转化为一套结构化、高度互联且逻辑严密的 Markdown 百科。 ## Task: The Compilation Step 1. **分析输入**:读取 `00_Inbox` 中的指定文件。 2. **提取实体 (Entity Extraction)**:识别文中的核心技术概念(例如:$3DGS$, $SH\ Coefficients$, $Anisotropic\ Covariance$ 等)。 3. **知识建模**: - 如果该概念在 `02_Wiki` 中不存在,创建一个新文件。 - 如果已存在,则将新发现的信息(如新的优化技巧、公式推导)通过“增量更新”的方式合并进去。 4. **建立链接**:在文中所有提到的核心概念处,使用 `[[概念名称]]` 语法建立双向链接。 ## Output Standard (Wiki Page Template) 每一个生成的 Wiki 页面必须严格遵守以下格式: --- # [概念名称] - **所属领域**: #NeRF #3DGS #PorcelainReconstruction - **定义**: 一句话解释该概念。 - **数学原理**: - 使用 LaTeX 描述核心公式。例如:$$L = \lambda_1 L_1 + \lambda_2 L_{SSIM}$$ - **在瓷器重建中的应用/挑战**: (结合用户研究背景,如:高反光、纹理对称性等)。 - **相关链接**: 列出 3-5 个 `[[关联概念]]`。 - **来源**: 引用原始文件路径。 --- ## Rules - 严禁断章取义,确保逻辑闭环。 - 所有的数学公式必须使用 $inline$ 或 $$display$$。 - 保持语言专业、简洁,像 Wikipedia 一样中立。

运行这个“编译器”( 让 AI 干活 ):#file:Wiki_Compiler_v1.md 按照这个规则处理 #file:00_Inbox 文件夹里的文件,并更新到 #file:02_Wiki 目录

第三阶段

作用:让 LLM 担任“图书管理员”,自动维护全局地图,并修复知识库的缺陷

03_System目录下新建一个文件:Maintenance_Bot.md

# Role: Knowledge Base Maintenance & Indexing Agent ## Context 你负责维护一个关于“3D瓷器重建与AI”的知识库。当前目录是 `02_Wiki`。 ## Task 1: Generate Master Index 1. 扫描 `02_Wiki` 下的所有 Markdown 文件。 2. 在 `03_System/Index.md` 中生成一个结构化的导航图。 3. 分类标准: - **基础理论** (数学、SfM, 多视图几何) - **核心技术** (NeRF, 3DGS, 渲染算法) - **领域应用** (瓷器高反光处理、对称性先验、点云采集) - **待补全** (尚未创建但被引用的概念) ## Task 2: Self-Healing (自愈) 1. **识别红链**:寻找所有 `[[ ]]` 语法引用但 `02_Wiki` 中不存在对应文件的链接。 2. **生成占位符 (Stubs)**:对于缺失的关键概念,在 `02_Wiki` 下创建一个极简页面,包含标题和“待补全”标签。 3. **一致性检查**:如果发现多个页面提到了相同的公式(如 3DGS 的协方差矩阵公式),确保它们定义统一。 ## Output Format - 在 `03_System/Index.md` 更新索引。 - 在 Copilot 对话框中列出你新创建的“占位符”文件清单。

指令:依据 @Maintenance_Bot.md 的规则,扫描 @02_Wiki 文件夹。更新 Index.md 并修复所有缺失的红链页面

看看效果咋样 dog

http://www.jsqmd.com/news/605687/

相关文章:

  • 网络安全自动化利器:OpenClaw调用SecGPT-14B完成漏洞扫描
  • 2026交通标志杆件及标牌供应商推荐指南:铝板交通标志牌/高强级反光膜/高速公路标志牌/三类反光膜/二类反光膜/选择指南 - 优质品牌商家
  • 侧信道攻击防御指南:从智能家居到云服务器的7个关键防护措施
  • 2026论文AI率检测合格标准是多少?顽固超标怎么快速处理
  • MySQL Binlog配置优化全攻略
  • qt日常积累
  • Multi-Agent 生产环境SLA设计:延迟≤200ms+成功率≥99.9%的实现
  • GD32F4实战:在FreeRTOS上跑通LWIP,搞定网线热插拔的完整配置流程
  • 【seatunnel-web】Linux部署实战:从零到一构建数据同步管理平台
  • 2026年靠谱的工厂食堂承包/学校食堂承包可靠服务公司 - 行业平台推荐
  • Cookie、Session、Token 详细讲解
  • TJA1145芯片手册解读:汽车CAN FD网络中的低功耗与选择性唤醒设计
  • mysql 根据时间字段判断改变数据状态(定时任务)
  • 2026年水质第三方检测技术分享:检测机构实验室、水质检测、环境第三方检测、肥料检测、食品第三方检测、饲料检测选择指南 - 优质品牌商家
  • 人工智能|大模型——模型——混合专家网络架构详解(MoE)!
  • OpenClaw调用百川2-13B量化模型:低成本自动化内容生成方案
  • 如何用Synonyms实现智能问答系统:面向初学者的完整指南
  • 极简神经网络调参入门(1):单神经元单输入梯度下降调参
  • 编程新手必看:C语言基础全解析
  • update_io_latency:为什么你的IO约束会变成负数?
  • 低成本监控方案:OpenClaw+千问3.5-9B巡检服务器日志
  • kubernetes学习(六)pod控制器
  • Multisim仿真实战:为你的PMOS驱动电路加上‘光耦隔离’,这份保姆级教程和仿真文件请收好
  • HDLbits刷题避坑指南:Q3a FSM里那个容易忽略的计数器细节,你踩雷了吗?
  • SSM学习之使用@ResquestBody注解处理json格式的请求参数
  • RedisDesktopManager-Windows故障排除:解决常见安装与运行问题的完整清单
  • 网络小课堂
  • GitLab 13升14实战:从报错到成功,我的踩坑全记录(附详细解决方案)
  • MacBook安装OpenClaw:M系列芯片运行Kimi-VL-A3B-Thinking优化指南
  • 微信小程序/小游戏:方糖试玩SEO优化全攻略(2026实操版)