当前位置: 首页 > news >正文

企业级知识库搭建(二)用 LLM 构建 Ontology 的五种流派

1. 为什么需要 Ontology(一个反例)

把全公司文档丢给 GPT/Claude 做企业知识库,问"供应商 A 的评分是多少"——今天 85 分,明天 92 分,后天 78 分。AI 没在说谎,它根本不知道"供应商"“评分”"日期"之间的关系。这就是没有 Ontology 的世界:每次都在做数据的模仿。

有了 Ontology(知识地图)后,AI 才能从随机猜测变成有据可查 + 链式推理:材料缺货 → 影响哪条产线 → 进而影响哪个客户订单。

2. 用 LLM 建 Ontology 的四道坎

  1. 不知道有多少类型:领域内是十种实体还是一千种?人也未必清楚。
  2. LLM 幻觉:会凭空造出原数据里没有的概念,并当成事实。
  3. 粒度难控:太宽泛没用,太细没人维护。
  4. 没有标准评估:什么样的 Ontology 算"建得好"没有统一答案。

3. 五种流派对比

流派核心思路幻觉风险工程复杂度适合场景代表
拆解派拆成多个子任务(实体抽取/关系抽取/去重归一/验证存图),每步双重验证(结构 + 逻辑)上生产、不容出错法国电力 EDF、WikiTonic
聚类派让数据自己说话:抽名词 → BERT 向量化 →AP 聚类(不知类数所以不用 K-means)→ LLM 命名较低探索全新领域论文LLM for Ontology(2025),三元组 (entity, relation, entity)
两步走派LLM 抽概念清单 → 整理成层级结构 → 序列化输出标准格式快速 demo 验证想法论文ontology1kg
框架派基于已有 schema(如 WikiData 几亿实体)约束 LLM 抽取,不许乱发明低-中有标准规范的行业(医疗、法律、电力)WikiData
直给派一个 prompt 让 LLM 端到端输出 Ontology极低POC / 学习 / 想法验证各类 prompt-only 挑战赛

4. 选型框架

  • 想快速试 POC 看方向→ 直给派
  • 探索全新领域,不知道里面有什么→ 聚类派(让数据告诉你答案)
  • 行业已有标准 schema→ 框架派(少走弯路)
  • 要上生产、不能出错→ 拆解派 + 双重验证(玩具 vs 生产系统的分界线)

5. 实战教训

  • 80% 的错误发生在第一步——实体抽取。类型标错、关系错、别名混用,会一路传导放大。“Garbage in, garbage out”,宁可在构建期多花功夫。
  • Prompt 的措辞极度敏感:同一个 LLM 改几个词,知识结构完全不同。用结构化模板而不是随手写自然语,可大幅降低波动。
  • 数据不是越多越好:论文Weak Ontic<1000 tokens就建出有效知识图谱。关键是数据质量 + 约束合理性,不是数据量。

一句话总结:LLM 建 Ontology 不再是"能不能"的问题,而是"怎么建得更好"的问题。

6. 开源工具:nano-ontoprompt

基于直给派 + 抽取/验证规则实现,左侧功能:

  • 概览/本体管理/提示词管理/模型管理/设置
  • 设置里可调:实体/逻辑识别的置信度阈值(如 Action 最低置信度)、多文档实体验证、本体质量验证等开关
  • 提示词管理:内置供应链、财务、营销等业务域模板(“假设你是 XX 领域专家…”)
  • 本体管理:上传 Word / Markdown / CSV 等文档 → 选模板(如供应链)+ 模型(DeepSeek V4 等)→ 开始抽取 → 可视化知识图谱(层级 / 圆形布局)
  • 主要实体类型示例:Organization / Product / Document / Facility
  • 可逐个查看/编辑实体、属性、关联关系,以及对应的逻辑规则(采购触发规则、质检触发规则等)和 Action

已在 GitHub 开源,可下载或 Fork 自行体验,https://github.com/jingw2/nano-ontoprompt/blob/master/README_zh.md。


关键脉络

  1. Palantir 验证了一件事:企业 Agentic Workflow 真正的瓶颈不是模型能力,而是有没有一套让 AI 读懂业务的语义层(Ontology)。
  2. 但传统 Ontology 构建太重:靠 FDE + 业务专家在白板上画几个月,又慢又贵,难持续维护——这是 Palantir 模式难以平民化的根因。
  3. LLM 给了平民化的可能:五种流派对应不同成熟度的场景——POC 用直给派、新领域用聚类派、标准行业用框架派、生产系统用拆解派。
  4. 下一步关注:从少量数据(one-shot / few-shot)里用 LLM 抽取 Ontology,是把 Palantir 模式带到中小企业的关键方向。
http://www.jsqmd.com/news/933752/

相关文章:

  • ESP8266固件烧录进阶:手把手教你用sscom5串口工具验证程序运行状态
  • AI驱动测试自动化:从核心原理到DevOps落地实践
  • 体素计算:三维空间智能单元的设计原理与游戏开发实践
  • 从‘看得见’到‘看得清’:一个真实案例带你理解ADAS摄像头分辨率与帧率如何影响夜间AEB表现
  • Ruby集成GPT-3 API实战指南:从环境配置到生产部署
  • FAT ML实践指南:在机器学习中实现公平、可问责与透明
  • 如何自定义DFlash目标层:Qwen3.6-35B-A3B-DFlash配置详解
  • ThingsBoard网关实战:如何把车间里的Modbus老设备轻松‘搬’上云端?
  • LLMLingua:提示词压缩技术解析与工程实践指南
  • Virtualenv实战:从创建、激活到删除,一条龙保姆级教程(Windows/Linux/Mac全平台)
  • 软件安全评审实战指南:从流程设计到团队赋能
  • 从ROS1到ROS2:YDLidar雷达驱动迁移实战与踩坑记录(附Ubuntu 20.04/22.04配置)
  • 从BGA扇出到连接器:一份给硬件工程师的高速差分信号布线‘对称性’保姆级检查清单
  • 告别命令行!Hermes Windows 可视化部署教程(附避坑清单)
  • 如何发起微信投票?云帆投票手把手教你创建投票 - 投票小程序
  • 【MySQL】学习笔记(四)—— 视图、事务、索引、用户管理、备份、三大范式
  • C#转Python第1.9篇:Python 的 dict.get 一行治好我的 TryGetValue 选择困难症
  • 告别手写公式烦恼:用Snipaste+SimpleTex.cn,截图粘贴5分钟搞定Latex代码
  • 别再手动标点了!用CVAT骨架模板+AI工具,效率提升300%的实战心得
  • 别再手动点灯了!用STM32 HAL库+74HC595驱动数码管,解放你的GPIO口(附Proteus仿真文件)
  • 解决NLP噪声难题:FuJianAscend/byt5_large_pt在TweetQA任务中的卓越表现
  • 告别网络识别混乱:Android 10/11设备WiFi固定MAC地址的完整配置指南(附AOSP修改补丁)
  • TouchDevelop:零配置浏览器编程环境与可视化开发实践
  • 跨界思维破解复杂系统:从相变与图极限理论到工程实践
  • 基于视觉语言模型的无人机自主导航系统SINGER解析
  • Sora 2医学动画的“黄金11秒”法则:基于237例临床反馈提炼的注意力峰值控制模型(附fMRI验证曲线)
  • luke-japanese-base-finetuned-ner-openmind在OpenMind平台上的性能优化秘籍:5个技巧让日语NER推理速度提升3倍
  • 极端分类技术解析:从大规模标签预测到高效算法实现
  • 手把手教你用CAPL的DiagSetPrimitiveByte搞定27服务密钥填充(附完整代码)
  • STM32F407硬件IIC读写EEPROM(AT24C02)保姆级教程,从初始化到调试