当前位置: 首页 > news >正文

PDF解析+大模型=翻车?手把手教你构建可靠的知识库系统,建议收藏!

文章揭示了PDF文档解析中,大模型(如Coze)在处理非结构化数据时存在准确性问题,简单问题可能给出错误且不一致结果。在高精度要求场景下,1%错误率仍需大量人力验证。作者提出解决方案包括人工数据清洗、规范化问答对、双层保险机制等,质疑问答场景中是否必须引入重量级大语言模型,认为可通过低成本方式构建更可靠的系统。


比如有一些这样的pdf文档内容,里面有关于每项服务的办理流程,为便于截图,随意展示几项,比如:

门诊就诊需要的办理要件,路径和办理时限:

住院服务需要的办理要件,路径和办理时限:

出院服务需要的办理要件,路径和办理时限:

投诉举报需要的办理要件(无),路径和办理时限:

其他还有很多内容,但是这些内容都有一个共同的特征:无结构数据,除非人工整理成结构数据。

现在基本上每个知识库服务商都能解析pdf 文档,像coze,dify等,为了方便起见,我们把它直接喂给coze,利用它们的自有能力来分析文档。

随后,我们来一个简单测试。就拿上面的截图内容,所有服务办理期限都是即时办结,但是投诉举报 需要3-7工作日。

我们就拿这个来问问大模型:

这就是coze 智能体给出的应答,同样的问题,多次询问给出不同的结果,而且每次都不正确。

看到这种结果,着实有点儿让人后背发凉。

如果拿着大厂背景的技术方案去服务客户,结果可想而知,一定会被骂得狗血淋头。

大模型本身还有很多的技术问题没有完全解决,以上这个问题也许不是特别严重,但是至少我们能够窥见类似这样的问题一定会大量存在,在一些对问题准确性要求较高的场景下,哪怕有1%的错误率,我们都没法放心去使用它,因为哪怕1%的错误率,仍然需要花费大量人力去保证结果正确。

但是这个问题我们有没有不费太高的代价解决吗?

肯定有。

至少在这个案例中不能完全依赖pdf的解析能力,数据的清洗工作最好还是需要人工去兜底把关。

比如在我们的实时互动系统管理后台中,我们提供了添加问答对的能力:

规范化的问答内容逐项增加到私有知识库:

在进行互动问答中,这些信息以高优先级响应,当没有匹配到这些信息,才会走底层大模型的私有知识库。

但是问答对也存在问题,比如上面内容中所有服务办理时限都是即时办结,但是只有一项举报投诉服务是3-7工作日。

这导致每一服务都要增加一条知识对,这显得有些繁琐。

除非能支持这样一条规则:“除了举报投诉的办理时限是3-7工作日,其他服务都是即时办结”。

但是这种推理能力需要大语言模型的支持。

还有一个问题,比如用户问“住院服务需要什么要件”,这个问题一旦到用户侧有可能变成上百种不同的问法,所以系统必须具备语意分析能力。

这其实已经引出一个问题:也就是在当前问答场景中,是否有必要引入大语言模型这种重量级的产品?

至少从我们的实践看来是不必的。

但是如果图省事,比如我就想利用一些智能体的基础能力,那么结合大语言模型是很好的选择。

那这样在双层保险中,问答会更准确。

但是没有智能体,同样也能在低成本代价中达到同样的目的。

如何学习AI大模型?

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!


第一阶段:从大模型系统设计入手,讲解大模型的主要方法;

第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

http://www.jsqmd.com/news/339115/

相关文章:

  • Snowflake投资2亿美元引入OpenAI模型提升数据库对话能力
  • 没想到,Momenta单月智驾搭载量近9万了......
  • 【报告】广东鸿图泰国建厂:一次围绕履约半径与组织边界的出海尝试
  • RabbitMQ在大数据领域的实时数据处理架构
  • OpenClaw修复一键远程代码执行漏洞,安全漏洞层出不穷
  • 上交自动驾驶3D重建综述!从NeRF到3DGS的全面调研(T-ITS‘25)
  • 山东道恩高分子材料在越南买下的,不只是一个工厂
  • Pandas 常用函数
  • Software Development Process Project Management 2
  • Oracle数据库26ai首个通用版引质疑
  • 26年已经跑了九家前端面试,基本全过了
  • 嵌入式基础——上拉电阻与下拉电阻
  • 基于深度确定性策略梯度算法(DDPG)进行滑模控制(SMC)调参优化算法DDPG_SMC(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • AI原生应用领域中AI代理的动态调整策略
  • 电力系统优化调度方向求解器/启发式优化算法(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • Vue3/React 结合 pdfjs 实现拖拽盖章签名等操作,支持 PDF多页展示,导出图片与 PDF
  • Matlab裂缝识别检测系统(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • 手写系列:面试官问我 new 的原理,我直接甩出三个版本
  • 宏智树 AI——ChatGPT 学术版驱动的一站式论文写作学术智能平台
  • 机器学习python房屋数据分析可视化预测系统(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • 【开题答辩全过程】以 基于javaweb的音乐节管理系统为例,包含答辩的问题和答案
  • 千万不能忽视!选择洁净厂房设计施工的3大关键点
  • 协同过滤算法+SpringBoot Vue校园二手物品置换系统+万字文档(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • 底盘电控悬架cdc控制系统文档(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • 洁净厂房设计施工,专业企业必选
  • 多智能体协同编队控制(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • 写论文软件哪个好?宏智树 AI 实测:全流程学术适配,毕业生告别写作内耗
  • 风机和水轮机互补发电(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • Redis的Key和Value的设计原则有哪些?
  • Angular 2 JavaScript:深度解析与最佳实践