当前位置: 首页 > news >正文

RAG-day5

1. 重叠分块

  1. 分块时相邻文本保留部分重复内容
  2. 解决普通固定分块语义被截断、上下文丢失问题
  3. 作用:保证语义完整,提升检索准确率

2. 递归分块

  1. 层级由大到小拆分:整篇→段落→句子→短句
  2. 不生硬按字数切割,贴合原文逻辑结构
  3. 优势:语义完整性强,适配结构化文章

3. 父子文档 RAG

  1. 父文档:篇幅大,保存完整上下文
  2. 子文档:拆分小块,用于向量检索
  3. 流程:检索匹配子文档 → 关联对应父文档 → 父文档完整内容喂给大模型
  4. 优势:兼顾检索精准度 + 上下文完整性,优化回答效果

原文:前端转 AI 现在很热门,很多人都在学 RAG。RAG 能解决大模型幻觉、信息滞后的问题,还能接入私有文档做问答,是转行必学的核心技术。

1. 普通固定分块(无重叠)

块 1:前端转 AI 现在很热门,很多人都在学 RAG。块 2:RAG 能解决大模型幻觉、信息滞后的问题,还能接入私有文档做问答,是转行必学的核心技术。特点:生硬截断,刚好卡在句子中间断开,容易丢语义。

2. 重叠分块

块 1:前端转 AI 现在很热门,很多人都在学 RAG。RAG 能解决大模型幻觉块 2:大模型幻觉、信息滞后的问题,还能接入私有文档做问答,是转行必学的核心技术。特点:两块中间重复一小段文字,不会把完整意思切断,保住上下文。

3. 递归分块

第一层(按整段):前端转 AI 现在很热门,很多人都在学 RAG。RAG 能解决大模型幻觉、信息滞后的问题,还能接入私有文档做问答,是转行必学的核心技术。第二层(拆句子)①前端转 AI 现在很热门,很多人都在学 RAG。②RAG 能解决大模型幻觉、信息滞后的问题。③还能接入私有文档做问答,是转行必学的核心技术。特点:从大到小逐层拆,先整段、再拆句子,不强行按字数切,顺着原文逻辑分。

补充 父子文档分块样式

父文档(完整大段):前端转 AI 现在很热门,很多人都在学 RAG。RAG 能解决大模型幻觉、信息滞后的问题,还能接入私有文档做问答,是转行必学的核心技术。子文档(拆成多个小块)子 1:前端转 AI 现在很热门,很多人都在学 RAG。子 2:RAG 能解决大模型幻觉、信息滞后的问题。子 3:接入私有文档做问答,是转行必学核心技术。特点:子块用来检索,父块保留完整上下文

一句话分清:递归分块 vs 父子文档分块

1. 递归分块

只干一件事:把原文,按逻辑一层层拆开整篇 → 段落 → 句子 → 短句只是单纯把文本合理切小,从头到尾都是同一份内容,没有大小块配对

2. 父子文档分块

故意做两套块

  • 父文档:保留完整一大段,不拿去检索
  • 子文档:拆成很多小碎块,专门用来检索检索到小子块 → 拉出来对应的父大块给模型用。

核心区别(记这一句就行)

  • 递归分块:只有一套内容,单纯逐层拆分切文本。
  • 父子分块:做两套内容(父大块 + 子小块),子用来搜,父用来给完整上下文。

用同一段原文直观对比

原文:AI 转行必学 RAG,RAG 能消幻觉、补信息滞后,还能读私有文档。

递归分块结果

第一层:AI 转行必学 RAG,RAG 能消幻觉、补信息滞后,还能读私有文档。第二层拆两句:

  1. AI 转行必学 RAG
  2. RAG 能消幻觉、补信息滞后,还能读私有文档👉 就只是逐级拆开,只有一套内容

父子文档分块结果

父文档(完整大段)AI 转行必学 RAG,RAG 能消幻觉、补信息滞后,还能读私有文档。

子文档(拆成小块)

  1. AI 转行必学 RAG
  2. RAG 能消幻觉、补信息滞后
  3. 还能读私有文档

👉 有一大 + 多小两套,分工不一样:子检索,父给完整内容。

http://www.jsqmd.com/news/777478/

相关文章:

  • 如何在5分钟内为Blender添加专业3D打印支持:Blender3mfFormat插件完整指南
  • 测试测量实战指南:从环境可靠性到嵌入式调试的工程方法论
  • GESP5级C++考试语法知识(十五、分治算法(二))
  • 36.人工智能实战:大模型配置怎么管理?Prompt、模型参数、路由策略的版本化与热更新方案
  • VSCode + Live Sass Compiler插件:5分钟搞定SASS实时编译与热重载
  • DSP架构优化与TMS320C6455实战应用解析
  • 亨得利名表维修预约流程公告:2026年5月全国官方售后网点亲测指南(含电话预约、在线预约、到店核销全流程与避坑要点) - 亨得利腕表维修中心
  • CentOS7下crontab报错Permission denied?3种解决方案实测(含宝塔面板特例)
  • AgentLink:为个人AI智能体构建去中心化P2P通信协议
  • 3分钟掌握R3nzSkin国服换肤:免费解锁英雄联盟全皮肤终极指南
  • RAG-day6
  • 告别提取码焦虑:3步解锁百度网盘资源的终极方案
  • 轻量级云原生存储方案:基于Rook-Ceph的边缘计算部署实践
  • 重庆众申机电设备:重庆专业做发电机回收的公司 - LYL仔仔
  • Vue项目里预览Word文档,除了docx-preview还有哪些方案?附完整代码对比
  • 数字孪生注入物理灵魂,镜像视界开创智治新篇
  • ZXPInstaller:Adobe扩展安装的终极跨平台解决方案
  • 航天飞机背负运输背后的航空电子与系统工程解析
  • 收藏!小白程序员必看:掌握AI大模型,抢占2030年高薪就业机会
  • 在github项目中集成taotoken多模型api的python调用教程
  • G-Helper深度解析:华硕笔记本终极硬件控制框架的技术实现与实战应用
  • 自托管RSS聚合器YourRSS:从部署到自动化,构建私有信息流
  • 2026海口汽车改色膜推荐|不伤原车漆・高端质感・膜艺世家双授权门店更靠谱! - 品牌推荐大师1
  • 2026高性价比海外TK矩阵系统选型推荐,助力外贸企业获客 - 奔跑123
  • 极简低功耗磁编码器 MT6701 重新定义无线智能面板交互
  • 蚌埠起源机械设备租赁:蚌埠升降平台推荐哪几家 - LYL仔仔
  • Sunshine自托管游戏串流服务器:3步搭建你的私人云游戏平台
  • pr视频制作素材平台对比:从模板、音效到画面风格的5个平台分析 - Fzzf_23
  • Clawith开源多智能体协作平台:构建具备持久记忆与自主意识的AI团队
  • 燃油费破百,暑假全家飞?实测推荐同程旅行:口令直达低价