当前位置：首页 > news >正文

零基础自建知识图谱网站——打通数据链路

news 2026/7/22 21:37:06

最重磅的功能来了！先回顾一下，前几篇做了几个工作：

搭建知识图谱网页，然后美化
提取《汉书·高帝记》的实体、关系图谱
搭建图谱编辑页面

所谓“数据链路”指的就是“提取数据-校正数据-反馈模型”这三个步骤。

为什么要做那么麻烦呢？大家都知道现在大模型的能力已经非常强了，对古文的理解能力也逐渐提高。但是问题在于，除非你对文本和想要的图谱特别熟悉，有自己特定的规则，否则依靠几句提示词出来的图谱无法达到一个非常高的准确率。如果想把图谱接入大模型做问答，直出的数据是不可靠的。

所以这里的做法是，做一个反馈机制，对于人工校正过的部分，记录大模型是在哪里错的，生成一个“错题本”，每次提取之前让它学习一遍，避免犯类似的错误。只要校正的越多，大模型就会越聪明。

当然也可以有其他思路，比如让两个大模型的结果交叉验证等等，感兴趣的小伙伴可以尝试下实现这个功能。这里我就采用人工校正的方式了。

动手做起来！现在打开Trae，使用plan模式下让它把方案写出来：

/plan 现在我想做一个工作： 制作数据提取-数据修改-大模型学习错误-继续提取的操作闭环， 请帮我出个计划

操作流程出来了：

1. 设置 Tab → 配置 LLM API（地址/Key/模型） 2. 数据提取 Tab → 选择古籍文本 → 点击「开始提取」 3. 大模型返回实体和关系 → 预览结果 → 点击「导入到编辑器」 4. 实体管理/关系管理 Tab → 人工审核修改 5. 返回数据提取 Tab → 点击「生成修改记录(Diff)」 6. 填写反馈摘要 → 点击「保存反馈」 7. 下次提取时自动注入纠错反馈 → 模型避免同类错误

看起来还不错，让它执行。会在后台新生成两个页面：数据提取页面（可以直接选择文本进行提取，并且提取前自动读取错题本）、设置页面（配置大模型API）。

没有API的小伙伴，可以去硅基流动注册一个新账号，领16块钱的新人礼。新发布的DeepSeekV4 Flash还是很便宜的，定价和32B小模型差不多，文本量不大的话应该可以满足测试的需求。

如果想继续薅Trae里的模型来提取数据，不想自己搞一个API，会麻烦一些，毕竟网站迟早要独立部署，这里我提供一个思路：不要做数据提取页面，每次生成文本之后，在后台进行校正，做一个保存差异的功能，让Trae每次提取数据的时候把这个差异读一下。

接下来跟我的步骤操作就可以获得自己的API了：

打开硅基流动的主页：https://www.siliconflow.cn/，正常注册。点击左侧的“实名认证”，完成后就可以拿到16块的代金券。继续打开“API密钥”，点击“新建API密钥”，给这个密钥取个名字，就搞定了。点击这个“sk”开头的密钥就可以复制了。

接下来选择模型，点击左侧第一行“模型广场”，选择自己喜欢的模型，比如这里我用DSV4，点击打开，看到输出的话是百万Token只要2块钱，可以随便造！点击最上面的复制按钮即可复制模型名。

回到我们的网站，在“设置”页面输入三个东西：

“API地址”输入“https://api.siliconflow.cn/v1/chat/completions”
“API Key”输入“sk”开头的密钥
“模型名称”输入“deepseek-ai/DeepSeek-V4-Flash”

点击下方的“测试连接”，试试可不可以连上。

我在测试的时候就出现了连接不上的问题，修了半天是硅基流动自己出了问题。正常连接成功的话，会提示：

接入外部大模型成功！

因为功能的流程是先提取数据，才能校正，这里先把之前的图谱删掉，从头开始用小批量数据做数据闭环。用小批量数据好的地方是上下文长度较短，不易产生幻觉，而且小数据方便校正，可以快速把闭环跑通。

选择《高帝记》的前一部分（刘邦起兵之前的约1100字），开始提取：

提取成功，会显示数据预览：

这里出了个问题，提取好的数据导入到编辑页面，都是空的，让它修复一下即可。

看看花了多少钱吧！打开硅基流动的“费用明细”，可以看到1100字的提取只花了3k的token，大概是半分钱。

16块钱提取一本汉书还是问题不大的。但是数据质量就……仔细看的话，刘盈变成了刘邦的父亲，刘邦的出生地也写的不太行。

看来不能直接用DeepSeek生成，还是要有约束才行：

/plan 调用模型没有问题了，但是问题是模型生成的图谱质量比较差， 请生成一个详细的古籍知识图谱生成规则给我确认

这时AI会生成一个详细的指导文档，可以规定好实体种类、每个种类的生成规则、实体描述信息、实体筛选规则、关系提取规则等等，让它执行就行了。这样每次调用API的时候会让AI先读一遍文档和错题本（token就是这样消耗的），试试怎么样吧：

第一条就错了。但是不管怎么说，它便宜，我们多依靠人工给它纠错再让它学习就行。

修改一下错误的数据，但是没办法保存数据了，也没办法生成错题本了。还有就是这个方式使用下来并不合理，我打算修改一下，做一个更好用的内容反馈机制：

/plan 现在我认为这套实现起来比较困难， 请重新设计一下修改数据到生成错题本数据调用AI， 要求好用且便于以后重复使用，请出一个详细的方案先跟我讨论

它出了一个自动保存修改记录并生成错题本的方案：

1.提取数据 → 导入到编辑器 2.编辑数据 （改实体名、改类型、删除错误实体等）→ 每次操作自动记录到 editLog 3.点击"保存数据" → 弹窗选择"保存并分析错题" 4.自动跳转到 错题本 Tab → 点击 "🤖 AI 分析编辑记录并生成错题" 5.AI 返回结构化错题（6 大分类：人物命名/类型错误/冗余实体/遗漏实体/关系错误/描述问题） 6.勾选采纳 → 确认写入错题本 7.下次提取数据 时，勾选"注入历史纠错反馈"，错题本条目自动格式化为结构化规则注入 system prompt

大概意思是：

每次提取并修改数据之后，自动保存修改记录。
在错题本页面可以使用AI分析修改记录，生成错题本。
今后提取的时候，可以把反馈给大模型。

思路很棒，执行！

现在测试一下吧，拿第二段话让AI去执行，顺利提取。但是这里还是犯了没有用原名的问题，继续分析一下，计入错题本：

这样数据链路就完全打通了！

网站也越来越正规了，下一步打算完善并封装两个skill：

古籍图谱提取skill
网站设计skill

这样不管用什么工具，都可以拿来就用，然后复刻我们在这个项目里生成的经验了。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～