当前位置：首页 > news >正文

RAG-day5

news 2026/5/8 15:59:52

1. 重叠分块

分块时相邻文本保留部分重复内容
解决普通固定分块语义被截断、上下文丢失问题
作用：保证语义完整，提升检索准确率

2. 递归分块

按层级由大到小拆分：整篇→段落→句子→短句
不生硬按字数切割，贴合原文逻辑结构
优势：语义完整性强，适配结构化文章

3. 父子文档 RAG

父文档：篇幅大，保存完整上下文
子文档：拆分小块，用于向量检索
流程：检索匹配子文档 → 关联对应父文档 → 父文档完整内容喂给大模型
优势：兼顾检索精准度 + 上下文完整性，优化回答效果

原文：前端转 AI 现在很热门，很多人都在学 RAG。RAG 能解决大模型幻觉、信息滞后的问题，还能接入私有文档做问答，是转行必学的核心技术。

1. 普通固定分块（无重叠）

块 1：前端转 AI 现在很热门，很多人都在学 RAG。块 2：RAG 能解决大模型幻觉、信息滞后的问题，还能接入私有文档做问答，是转行必学的核心技术。特点：生硬截断，刚好卡在句子中间断开，容易丢语义。

2. 重叠分块

块 1：前端转 AI 现在很热门，很多人都在学 RAG。RAG 能解决大模型幻觉块 2：大模型幻觉、信息滞后的问题，还能接入私有文档做问答，是转行必学的核心技术。特点：两块中间重复一小段文字，不会把完整意思切断，保住上下文。

3. 递归分块

第一层（按整段）：前端转 AI 现在很热门，很多人都在学 RAG。RAG 能解决大模型幻觉、信息滞后的问题，还能接入私有文档做问答，是转行必学的核心技术。第二层（拆句子）①前端转 AI 现在很热门，很多人都在学 RAG。②RAG 能解决大模型幻觉、信息滞后的问题。③还能接入私有文档做问答，是转行必学的核心技术。特点：从大到小逐层拆，先整段、再拆句子，不强行按字数切，顺着原文逻辑分。

补充父子文档分块样式

父文档（完整大段）：前端转 AI 现在很热门，很多人都在学 RAG。RAG 能解决大模型幻觉、信息滞后的问题，还能接入私有文档做问答，是转行必学的核心技术。子文档（拆成多个小块）子 1：前端转 AI 现在很热门，很多人都在学 RAG。子 2：RAG 能解决大模型幻觉、信息滞后的问题。子 3：接入私有文档做问答，是转行必学核心技术。特点：子块用来检索，父块保留完整上下文。

一句话分清：递归分块 vs 父子文档分块

1. 递归分块

只干一件事：把原文，按逻辑一层层拆开整篇 → 段落 → 句子 → 短句只是单纯把文本合理切小，从头到尾都是同一份内容，没有大小块配对。

2. 父子文档分块

故意做两套块：

父文档：保留完整一大段，不拿去检索
子文档：拆成很多小碎块，专门用来检索检索到小子块 → 拉出来对应的父大块给模型用。

核心区别（记这一句就行）

递归分块：只有一套内容，单纯逐层拆分切文本。
父子分块：做两套内容（父大块 + 子小块），子用来搜，父用来给完整上下文。

用同一段原文直观对比

原文：AI 转行必学 RAG，RAG 能消幻觉、补信息滞后，还能读私有文档。

递归分块结果

第一层：AI 转行必学 RAG，RAG 能消幻觉、补信息滞后，还能读私有文档。第二层拆两句：

AI 转行必学 RAG
RAG 能消幻觉、补信息滞后，还能读私有文档👉 就只是逐级拆开，只有一套内容。

父子文档分块结果

父文档（完整大段）AI 转行必学 RAG，RAG 能消幻觉、补信息滞后，还能读私有文档。

子文档（拆成小块）

AI 转行必学 RAG
RAG 能消幻觉、补信息滞后
还能读私有文档

👉 有一大 + 多小两套，分工不一样：子检索，父给完整内容。

http://www.jsqmd.com/news/777478/

相关文章：

如何在5分钟内为Blender添加专业3D打印支持：Blender3mfFormat插件完整指南

测试测量实战指南：从环境可靠性到嵌入式调试的工程方法论

GESP5级C++考试语法知识（十五、分治算法（二））

36.人工智能实战：大模型配置怎么管理？Prompt、模型参数、路由策略的版本化与热更新方案

VSCode + Live Sass Compiler插件：5分钟搞定SASS实时编译与热重载

DSP架构优化与TMS320C6455实战应用解析

亨得利名表维修预约流程公告：2026年5月全国官方售后网点亲测指南（含电话预约、在线预约、到店核销全流程与避坑要点） - 亨得利腕表维修中心

CentOS7下crontab报错Permission denied？3种解决方案实测（含宝塔面板特例）

AgentLink：为个人AI智能体构建去中心化P2P通信协议

3分钟掌握R3nzSkin国服换肤：免费解锁英雄联盟全皮肤终极指南

告别提取码焦虑：3步解锁百度网盘资源的终极方案

轻量级云原生存储方案：基于Rook-Ceph的边缘计算部署实践

重庆众申机电设备：重庆专业做发电机回收的公司 - LYL仔仔

Vue项目里预览Word文档，除了docx-preview还有哪些方案？附完整代码对比

数字孪生注入物理灵魂，镜像视界开创智治新篇

ZXPInstaller：Adobe扩展安装的终极跨平台解决方案

航天飞机背负运输背后的航空电子与系统工程解析

收藏！小白程序员必看：掌握AI大模型，抢占2030年高薪就业机会

在github项目中集成taotoken多模型api的python调用教程

G-Helper深度解析：华硕笔记本终极硬件控制框架的技术实现与实战应用

自托管RSS聚合器YourRSS：从部署到自动化，构建私有信息流

2026海口汽车改色膜推荐｜不伤原车漆・高端质感・膜艺世家双授权门店更靠谱！ - 品牌推荐大师1

2026高性价比海外TK矩阵系统选型推荐，助力外贸企业获客 - 奔跑123

极简低功耗磁编码器 MT6701 重新定义无线智能面板交互

蚌埠起源机械设备租赁：蚌埠升降平台推荐哪几家 - LYL仔仔

Sunshine自托管游戏串流服务器：3步搭建你的私人云游戏平台

pr视频制作素材平台对比：从模板、音效到画面风格的5个平台分析 - Fzzf_23

Clawith开源多智能体协作平台：构建具备持久记忆与自主意识的AI团队

燃油费破百，暑假全家飞？实测推荐同程旅行：口令直达低价