当前位置: 首页 > news >正文

RAG的数据准备

第二章 数据准备

一、学习心得

原以为数据准备就是简单把文档打开,没想到是RAG的“地基”,数据处理的好坏直接影响后续检索和生成的效果,切分的太碎或太整都不行。教程里的多格式文档加载和文本分块策略太实用了,解决了我之前不知道怎么处理PDF/MD等不同格式文档的问题,而且分块不是瞎切,是有技巧的,终于明白为什么有的RAG检索不到相关内容,大概率是分块没做好。

二、核心内容归纳

本章核心是把原始文档变成适合RAG处理的“小文本块(chunk)”,分两大步骤,每一步都有技巧和优化,所有操作都是为了让后续检索更精准。

  1. 第一步:数据加载——搞定各种格式的文档
    • 支持的文档格式:日常用到的基本都能处理,比如Markdown、PDF、Word、TXT等,教程里有对应的加载方法,不用自己写复杂的解析代码;
    • 核心要求:把不同格式的文档统一解析成纯文本,同时尽量保留文档的原始结构(比如MD的标题、层级),结构信息对后续分块和检索很重要;
    • 核心目标:解析无乱码、无冗余内容(比如PDF的页眉页脚、广告),保证文本的干净度。
  1. 第二步:文本分块——把大文本切成合适的小碎片
    • 分块的核心原则:语义完整+长度合适,不能把一个完整的知识点切散,也不能切的块太大(太大了检索时冗余信息多,精准度低);
    • 常用分块策略:教程里重点讲了Markdown结构感知分块,跟着MD的标题、二级标题、段落来切,贴合自然的知识划分,比无脑按字符数切效果好太多;
    • 分块优化点:切分后可以给每个小块加元信息(比如文档名、章节、标题),后续检索时能带上这些信息,提升检索精准度,也方便用户看答案的来源。
  1. 数据准备的核心目标:输出干净、结构完整、长度合适的文本块,为后续向量化和索引构建打好基础,这一步做不好,后面的索引和检索再优化也没用。

三、实操踩坑&填坑技巧

  1. 坑1:加载PDF文档时出现乱码、公式丢失,检索不到关键内容;
    填坑:用教程推荐的PDF解析库,解析时开启OCR模式,同时过滤掉PDF的页眉、页脚、空白行,保证解析后的文本干净;
  2. 坑2:文本分块时按固定字符数切,把完整的知识点切散(比如把一个菜谱的做法切成两个块);
    填坑:放弃无脑固定长度切分,用结构感知分块(MD按层级、PDF按章节),如果是纯文本,按段落/句号切,保留语义完整性;
  3. 坑3:分块的长度太长(比如几千字一个块),检索时返回的内容冗余,大模型生成答案时抓不住重点;
    填坑:根据自己的知识库类型调整块大小,一般中文按500-1000字符一个块比较合适,专业知识可以适当缩短;
  4. 坑4:加载大量文档时速度慢,甚至内存溢出;
    填坑:分批加载文档,不要一次性把所有文档都读入内存,加载后及时清理冗余数据。

四、对本章教程的意见&建议

  1. 优点:把数据加载和分块的核心痛点讲透,重点讲了实用的结构感知分块,而非基础的固定长度分块,贴合实际工程需求,实操性强;
  2. 小建议:可以补充不同格式文档(比如扫描版PDF、带图片的Word)的加载优化方法,同时给一个常用的分块长度参考值(比如不同场景的字符数范围),新手不用自己试错。
http://www.jsqmd.com/news/772055/

相关文章:

  • 从‘多普勒效应’到‘速度分辨率’:给算法工程师的雷达测速原理精讲与避坑指南
  • 在自动化脚本中使用 Taotoken 实现多模型轮询调用
  • Wand-Enhancer终极指南:零成本解锁WeMod/Wand高级功能的完整教程
  • java 排序
  • 3步解放双手:MAA智能助手如何让《明日方舟》日常任务变得轻松高效
  • 为什么你的AISMM评估报价比同行高2.8倍?——SITS2026新规触发的4个成本跃迁临界点
  • 社区机器人开发实战:从架构设计到部署运维的完整指南
  • docker如何部署一个前端网站
  • 终极桌面管理革命:NoFences打造你的Windows效率空间
  • 为什么Wu.CommTool成为工业通信调试的终极选择?
  • 强力解锁!Marketch插件:Sketch设计稿秒变HTML的终极指南
  • 《龙虾OpenClaw系列:从嵌入式裸机到芯片级系统深度实战60课》024、RTOS移植基础——FreeRTOS在OpenClaw上的适配
  • 月球基底建造 第一卷第二章 原位炼造,工业萌芽与秦衍算法迭代
  • Kohya_ss深度解析:AI绘画模型训练的革命性GUI工具
  • 从数据孤岛到全域融通,打造新一代国产数字基座
  • 如何用Stretchly科学管理屏幕时间:免费开源的健康办公助手终极指南
  • 通过Hermes Agent框架对接Taotoken自定义模型提供方
  • 联邦学习赋能物联网:从核心原理到产业落地的全景解析
  • 门店小程序适合什么店
  • Web Dynpro ABAP 里的 Data Protection,真正难的不是删除,而是知道该删什么
  • 别再只做AISMM打分!SITS2026验证:将成熟度等级转化为变革路线图的唯一可复用公式(附动态测算Excel)
  • AI代码沙盒:从容器化隔离到即时执行的安全实践
  • Windows字体渲染革命:MacType深度配置与调优完全指南
  • 【完整源码+数据集+部署教程】电子摄像头分割系统源码&数据集分享 [yolov8-seg-C2f-DWR&yolov8-seg-C2f-ContextGuided等50+全套改进创新点发刊_一键训练
  • STM32 I2C LCD 1602驱动:5分钟快速入门完整指南
  • 如何快速配置个性化Windows系统:Windhawk终极实用指南
  • 2026年问题肌修护品牌怎么选?植草沐草本配方深度解析 - 打我的的
  • FlipIt:用数字复古美学重新定义Windows屏保的时空艺术
  • AI 智能应用开发(持续更新中)
  • Kindle漫画转换终极指南:用KCC在电子阅读器上完美阅读漫画