当前位置: 首页 > news >正文

全网爆火的大模型AI知识库,保姆级教程来了

Karpathy 发了一条推文,分享了他近期重点在用 AI 构建个人知识库,短短两天,全网千万人观看。

“我最近发现一件非常有用的事:用 LLMs 为各种研究主题建立个人知识库。这样一来,我最近的大部分 token 使用量更多地用于处理内容,而不是编写或修改代码。”

然后就在昨天,他公开了整个构建的思路:

思路很简单:不要把笔记分散在各种应用里,而是全扔进一个文件夹。然后让 AI 把这些材料整理成个人维基——生成摘要、把内容关联起来、整理文章——之后越用越好用。

你也想要打造大神同款AI知识库么?

博主 Nick Spisak 打造了一套保姆级实现教程,不需要特殊软件,不需要数据库,只要文件夹和文本文件。

第一步:三个文件夹,两分钟搭好

打开终端或文件管理器,在电脑任意位置创建一个项目文件夹。在里面创建三个子文件夹:

my-knowledge-base/ raw/ (你的源材料 - 文章、笔记、截图) wiki/ (AI 写入整理后内容的地方) outputs/ (AI 生成的答案、报告和研究)

就这样。这就是 Karpathy 使用的结构:raw/ 文件夹是你的原始素材收纳箱,wiki/ 文件夹是 AI 帮你理出条理的地方,outputs/ 文件夹存放问题的答案。

第二步:不用整理,什么都往里扔

大多数人在这里卡住了。他们创建了文件夹,然后盯着空空如也的 raw/ 目录,不知道该放什么。

答案是:什么都往里扔。把文章复制粘贴成 .md 或 .txt 文件,截图和图表直接保存,从你现在用的任何应用里导出笔记,会议记录、研究论文、项目文档,还有那些囤了几个月的书签,统统扔进去。

别整理、别重命名、别清理,这些活儿都是 AI 的。

我做 X 内容的时候攒了 17 个原始文件——剪藏的文章、竞品分析、数据报告。没有一个是手工整理的。

但 Karpathy 没提到真正加速这个过程的部分:自动化收集。

第三步:让AI自动把网页存进来

Vercel Labs 刚发布了 agent-browser——一个免费的命令行工具,让你的 AI Agent 操控实际的 Chrome 浏览器。GitHub 上 26K+ 星标。两条命令安装:

第二条命令会下载一个专用的 Chrome 浏览器。现在你的 AI 可以抓取任何网页,提取文本,直接保存到 raw/ 文件夹。

实际操作是这样的:

agent-browser open https://some-article-you-want.com agent-browser get text "article"

就这样。AI 打开页面,抓取文章文本,你把它导入到 raw/ 里的文件。不需要手动复制粘贴,不需要浏览器扩展。

agent-browser 能处理那些复制粘贴搞不定的页面:JavaScript 动态加载的网站、需要登录才能看的内容、带交互式图表的研究论文,还有那些得不停滚动、点“加载更多”、在菜单里翻来翻去才能看到完整内容的页面。

这个工具比 Playwright MCP 省 82% 的 token,也就是说,同样一轮对话里,你的 AI Agent 能抓 5-6 倍的页面。我用它直接拉竞品文章、热门话题和研究文档,根本不用自己开浏览器。

用在知识库上,流程很简单:看到想要的文章,跟 AI 说一声:「把这个 URL 抓下来存到 raw/」,agent-browser 就搞定了。你的 raw/ 文件夹会自己慢慢填满。

第四步:给AI一份说明书,让它知道怎么干

这是大多数人会跳过的部分,别跳过。

在项目根目录创建一个叫 CLAUDE.md 的文件(或 AGENTS.md 或 README.md——名字不重要,内容才重要)。这个文件让 AI 知道你的知识库是干什么的、该怎么整理。

这是一个你现在就可以复制的起始模板:

# 知识库 Schema ## 这是什么 一个关于 [你的主题] 的个人知识库。 ## 如何组织 - raw/ 包含未处理的源材料。永远不要修改这些文件。 - wiki/ 包含整理后的维基。完全由 AI 维护。 - outputs/ 包含生成的报告、答案和分析。 ## 维基规则 - 每个主题在 wiki/ 中有自己的 .md 文件 - 每个维基文件以一段摘要开头 - 使用 [[topic-name]] 格式链接相关主题 - 在 wiki/ 中维护一个 INDEX.md,列出每个主题及一行描述 - 当添加新的原始源时,更新相关的维基文章 ## 我的兴趣点 [列出 3-5 个你希望这个知识库关注的方向]

Karpathy 自己也说了,他的 AGENTS.md 里的 schema “超级简单,完全扁平”:没有数据库,没有插件,只是一个告诉 AI 规则的文本文件。

这个文件相当于我在每个项目中使用 CLAUDE.md 的作用:给 AI 写一份你这个知识库专用的说明书。

第五步:一条指令,AI把笔记编成维基

打开 Claude Code(或 Cursor,或任何能读取文件的 AI 编码工具),打开你的项目文件夹,然后说:

“读取 raw/ 中的所有内容。然后按照 CLAUDE.md 中的规则在 wiki/ 中编译一个维基。先创建 INDEX.md,然后为每个主要主题创建一个 .md 文件。链接相关主题。总结每个源。“

然后走开,让它慢慢跑。

跑完之后你会拿到一个 wiki/ 文件夹,文章都按主题整理好了——帮你串起之前没注意到的关联,补上忘存的内容摘要,再加一份索引文件,想查什么几秒就能找到。

关键是:你不要手动编辑 Wiki,那是 AI 的工作。你只需要阅读它,对它提问,AI 负责更新和维护。

第六步:开始提问,打造活的知识库

一旦你的维基有了 10 篇以上的文章,开始提问:

“基于 wiki/ 中的所有内容,我对 【主题】 理解中最大的三个空白是什么?”“比较源 A 和源 B 对 【概念】 的说法。它们在哪里有分歧?”“仅使用这个知识库中的内容,给我写一份 500 字的 【主题】 简报。”

AI 会读取你的整个维基,根据你自己攒的材料给你答案。

把这些答案保存回知识库。把输出放到 outputs/ 或让 AI 用新见解更新相关的维基文章。每个问题都让下一个答案更好,正循环就转起来了。

第七步:定期检查,不让错误复利

告诉你的 AI:

“审查整个 wiki/ 目录。标记文章之间的任何矛盾。找出提到但从未解释的主题。列出任何没有 raw/ 中源支持的声明。建议 3 篇能填补空白的新文章。”

Karpathy 这条帖子下面,@HFloyd 的回复说到了关键:“当输出被归档回去时,错误也会复利。”这是真的。如果 AI 写了一些稍微错误的东西而你保存了它,下一个答案就会跟着错下去。

解决方法很简单:定期运行健康检查。

工具选择:简单胜过复杂

Karpathy 帖子下一半回复都在安利 Obsidian 插件。

但当有人问起他的设置时,Karpathy 实际上说的是:“我试图保持超级简单和扁平。它只是一个嵌套的 .md 文件目录。”

一个文本文件文件夹和一个 schema 文件就是整个知识库。

我用 Claude Code 从终端运行整个知识系统。你可以用 VS Code,可以用 Obsidian,可以用记事本。

AI 不在乎你用什么应用打开文件,重要的是文件夹结构和 schema。

装了 47 个插件的 Obsidian 又是一个 Notion 陷阱。你花在配置工具上的时间比使用知识库的时间还多。

扁平文件加一个好的 schema,90% 的场景下比花哨的工具栈管用。

写在最后:收藏和真正用起来!

这就是完整系统:三个文件夹、一个 schema 文件、一个浏览器抓取器,以及一个维护一切的 AI。

Karpathy 的帖子有 44K 人收藏。但收藏和真正用起来,差的只是一个周末的动手时间。

选个主题,建好文件夹,把现有内容扔进去。

剩下的交给 AI,就这么简单。

这里给大家精心整理了一份全面的AI大模型学习资源包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

👇👇扫码免费领取全部内容👇👇

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

4. 2026行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

5. 大模型项目实战

学以致用,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

7. 资料领取:全套内容免费抱走,学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:

👇👇扫码免费领取全部内容👇👇

http://www.jsqmd.com/news/603529/

相关文章:

  • win 安装openclaw (docker镜像模式),解决18789访问失败问题
  • 3D Face HRN开源镜像价值:免训练、免标注、免3D扫描设备的平民化方案
  • 肿瘤患者如何预防口腔黏膜炎发生?速舒提供科学护理方案 - 资讯焦点
  • 从FAISS到Milvus:一个AI工程师的向量数据库技术栈演进史与踩坑实录
  • COMSOL仿真揭示石墨烯临界耦合光吸收特性:费米能级调控下的光学性能研究
  • 塞尔达传说存档定制指南:打造个性化游戏体验
  • 2026.4 紫题金了
  • CTC语音唤醒模型与数据结构优化实战
  • 嵌入式C++编译时间缩短82%的实战路径(仅限前500名工程师掌握的增量构建秘钥)
  • 想点奶茶外卖,沪上阿姨鲜果茶值得点吗?美团周末五折福利帮你解锁高性价比答案 - 资讯焦点
  • 告别电脑噪音烦恼:用FanControl 264版实现完美风扇控制
  • EdB Prepare Carefully个性化定制指南:打造你的理想RimWorld开局
  • Steam Deck终极模拟器配置指南:EmuDeck一键安装30+经典游戏机
  • lesson70:jQuery Ajax完全指南:从基础到4.0新特性及现代替代优秀的方案引言:jQuery Ajax的时代价值与演进 - Leone
  • AI将取代80%的测试工作?我持反对意见
  • 3分钟搞定Axure RP中文界面:告别英文困扰,专注原型设计
  • 【2026实测】Syncthing下载安装教程:Syncthing文件同步工具使用全攻略 - xiema
  • 实战指南:基于快马生成集成openclaw的爬虫项目,安装即用
  • 从音频到DDR:一文搞懂PCB设计中“包地”、“类差分”和“真差分”走线到底怎么用
  • 跨平台媒体传输新选择:Go2TV 3分钟入门指南
  • Python实战:海康工业相机主动取流(getoneframetimeout)图像数据解析与OpenCV实时显示优化
  • 2026 ICPC Asia Pacific Championship - E. Parallel Sums
  • [Windows] EchoTrace v3.1.0 W信聊天记录导出、分析与年度报告生成工具
  • 拒绝盲目跟风!2026高口碑主治医师机构红榜揭秘,看完再选不踩雷 - 医考机构品牌测评专家
  • JBoltAI框架4.2版本更新:Java开发者的AI新利器
  • 从‘听不清’到‘听得准’:深入FunASR的VAD模型,教你调参优化语音识别在嘈杂环境下的表现
  • 保姆级教程:从开启到分析,手把手用Jcmd和NMT给你的SpringBoot应用做一次“内存体检”
  • 数据集|番茄叶子病虫害分类数据集11类
  • Windows 11系统优化深度解析:Win11Debloat技术架构与实战指南
  • LIF蛋白在胰腺癌旁分泌信号中的作用机制与临床意义