当前位置: 首页 > news >正文

零基础自建知识图谱网站——打通数据链路

最重磅的功能来了!先回顾一下,前几篇做了几个工作:

  • 搭建知识图谱网页,然后美化

  • 提取《汉书·高帝记》的实体、关系图谱

  • 搭建图谱编辑页面

所谓“数据链路”指的就是“提取数据-校正数据-反馈模型”这三个步骤。

为什么要做那么麻烦呢?大家都知道现在大模型的能力已经非常强了,对古文的理解能力也逐渐提高。但是问题在于,除非你对文本和想要的图谱特别熟悉,有自己特定的规则,否则依靠几句提示词出来的图谱无法达到一个非常高的准确率。如果想把图谱接入大模型做问答,直出的数据是不可靠的。

所以这里的做法是,做一个反馈机制,对于人工校正过的部分,记录大模型是在哪里错的,生成一个“错题本”,每次提取之前让它学习一遍,避免犯类似的错误。只要校正的越多,大模型就会越聪明。

当然也可以有其他思路,比如让两个大模型的结果交叉验证等等,感兴趣的小伙伴可以尝试下实现这个功能。这里我就采用人工校正的方式了。

动手做起来!现在打开Trae,使用plan模式下让它把方案写出来:

/plan 现在我想做一个工作: 制作数据提取-数据修改-大模型学习错误-继续提取的操作闭环, 请帮我出个计划

操作流程出来了:

1. 设置 Tab → 配置 LLM API(地址/Key/模型) 2. 数据提取 Tab → 选择古籍文本 → 点击「开始提取」 3. 大模型返回实体和关系 → 预览结果 → 点击「导入到编辑器」 4. 实体管理/关系管理 Tab → 人工审核修改 5. 返回数据提取 Tab → 点击「生成修改记录(Diff)」 6. 填写反馈摘要 → 点击「保存反馈」 7. 下次提取时自动注入纠错反馈 → 模型避免同类错误

看起来还不错,让它执行。会在后台新生成两个页面:数据提取页面(可以直接选择文本进行提取,并且提取前自动读取错题本)、设置页面(配置大模型API)。

没有API的小伙伴,可以去硅基流动注册一个新账号,领16块钱的新人礼。新发布的DeepSeekV4 Flash还是很便宜的,定价和32B小模型差不多,文本量不大的话应该可以满足测试的需求。

如果想继续薅Trae里的模型来提取数据,不想自己搞一个API,会麻烦一些,毕竟网站迟早要独立部署,这里我提供一个思路:不要做数据提取页面,每次生成文本之后,在后台进行校正,做一个保存差异的功能,让Trae每次提取数据的时候把这个差异读一下。

接下来跟我的步骤操作就可以获得自己的API了:

打开硅基流动的主页:https://www.siliconflow.cn/,正常注册。点击左侧的“实名认证”,完成后就可以拿到16块的代金券。继续打开“API密钥”,点击“新建API密钥”,给这个密钥取个名字,就搞定了。点击这个“sk”开头的密钥就可以复制了。

接下来选择模型,点击左侧第一行“模型广场”,选择自己喜欢的模型,比如这里我用DSV4,点击打开,看到输出的话是百万Token只要2块钱,可以随便造!点击最上面的复制按钮即可复制模型名。

回到我们的网站,在“设置”页面输入三个东西:

  • “API地址”输入“https://api.siliconflow.cn/v1/chat/completions”
  • “API Key”输入“sk”开头的密钥
  • “模型名称”输入“deepseek-ai/DeepSeek-V4-Flash”

点击下方的“测试连接”,试试可不可以连上。

我在测试的时候就出现了连接不上的问题,修了半天是硅基流动自己出了问题。正常连接成功的话,会提示:

接入外部大模型成功!

因为功能的流程是先提取数据,才能校正,这里先把之前的图谱删掉,从头开始用小批量数据做数据闭环。用小批量数据好的地方是上下文长度较短,不易产生幻觉,而且小数据方便校正,可以快速把闭环跑通。

选择《高帝记》的前一部分(刘邦起兵之前的约1100字),开始提取:

提取成功,会显示数据预览:

这里出了个问题,提取好的数据导入到编辑页面,都是空的,让它修复一下即可。

看看花了多少钱吧!打开硅基流动的“费用明细”,可以看到1100字的提取只花了3k的token,大概是半分钱。

16块钱提取一本汉书还是问题不大的。但是数据质量就……仔细看的话,刘盈变成了刘邦的父亲,刘邦的出生地也写的不太行。

看来不能直接用DeepSeek生成,还是要有约束才行:

/plan 调用模型没有问题了,但是问题是模型生成的图谱质量比较差, 请生成一个详细的古籍知识图谱生成规则给我确认

这时AI会生成一个详细的指导文档,可以规定好实体种类、每个种类的生成规则、实体描述信息、实体筛选规则、关系提取规则等等,让它执行就行了。这样每次调用API的时候会让AI先读一遍文档和错题本(token就是这样消耗的),试试怎么样吧:

第一条就错了。但是不管怎么说,它便宜,我们多依靠人工给它纠错再让它学习就行。

修改一下错误的数据,但是没办法保存数据了,也没办法生成错题本了。还有就是这个方式使用下来并不合理,我打算修改一下,做一个更好用的内容反馈机制:

/plan 现在我认为这套实现起来比较困难, 请重新设计一下修改数据到生成错题本数据调用AI, 要求好用且便于以后重复使用,请出一个详细的方案先跟我讨论

它出了一个自动保存修改记录并生成错题本的方案:

1.提取数据 → 导入到编辑器 2.编辑数据 (改实体名、改类型、删除错误实体等)→ 每次操作自动记录到 editLog 3.点击"保存数据" → 弹窗选择"保存并分析错题" 4.自动跳转到 错题本 Tab → 点击 "🤖 AI 分析编辑记录并生成错题" 5.AI 返回结构化错题(6 大分类:人物命名/类型错误/冗余实体/遗漏实体/关系错误/描述问题) 6.勾选采纳 → 确认写入错题本 7.下次提取数据 时,勾选"注入历史纠错反馈",错题本条目自动格式化为结构化规则注入 system prompt

大概意思是:

  • 每次提取并修改数据之后,自动保存修改记录。

  • 在错题本页面可以使用AI分析修改记录,生成错题本。

  • 今后提取的时候,可以把反馈给大模型。

思路很棒,执行!

现在测试一下吧,拿第二段话让AI去执行,顺利提取。但是这里还是犯了没有用原名的问题,继续分析一下,计入错题本:

这样数据链路就完全打通了!

网站也越来越正规了,下一步打算完善并封装两个skill:

  • 古籍图谱提取skill

  • 网站设计skill

这样不管用什么工具,都可以拿来就用,然后复刻我们在这个项目里生成的经验了。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/831978/

相关文章:

  • 基于RAG的智能文档问答系统:从原理到工程实践
  • 深入解析异步I/O核心框架:从asyncio到高性能网络编程
  • 2026年三大高口碑宠物医院预约小程序,智能解决你的就医难题
  • Arm Cortex-R处理器参数配置详解与实战经验
  • Python金融数据获取终极指南:使用pywencai高效访问同花顺问财数据
  • 先知AIGC如何助力泳装产业实现设计智能化?
  • 综合能源服务商交易策略与运行优化【附模型】
  • AAAI 2026发表!强化学习+知识图谱妥妥下一个黄金赛道!
  • 【Midjourney像素艺术终极指南】:20年AI视觉工程师亲授7大参数组合,3步生成任天堂级8-bit风格图像
  • 基于ESP32与CircuitPython的WiFi智能LED标牌制作全攻略
  • RWKV-Runner:零门槛部署本地大模型,图形化界面与OpenAI API兼容
  • 深度学习泛化理论:正则化与模型选择
  • 第一个GEO优化案例该怎么做?
  • 空洞骑士Scarab模组管理器:3分钟快速上手指南
  • 从代码仓库到工程洞察:构建数据驱动的代码分析平台
  • 独立开发者如何利用 Taotoken 为个人项目灵活切换不同大模型
  • ARMv8 AArch64寄存器体系与虚拟化控制详解
  • Dify开源AI平台:可视化工作流构建企业级智能应用实战
  • AI团队协作镜像:Docker容器化实现环境一致性与高效复现
  • 开源工具自动化审计框架:构建安全可信的软件供应链
  • 为什么你的Midjourney输出总像“AI味”?揭秘概念艺术风格底层逻辑:3层语义解耦模型+2类材质-光影-构图耦合系数
  • Claude API私有化部署全链路方案(含金融级审计日志模板+GDPR兼容配置)
  • 5分钟掌握多平台资源下载:res-downloader终极操作指南
  • OpenClaw实战:从网页抓取到反爬对抗的完整技术指南
  • 新手怎么开始做GEO?
  • 嵌入式开发革命:LuatOS云编译实战指南与效率提升
  • FPGA加速OSOS-ELM:单光子信号实时在线学习方案
  • 终极窗口尺寸控制神器:WindowResizer完整使用指南
  • Minecraft Forge模组开发辅助插件:提升调试效率的客户端工具箱
  • ESP32-C3机械爪控制:从PWM舵机驱动到物联网节点设计