当前位置: 首页 > news >正文

为什么 Chunk(分块)策略,会决定 RAG 的效果上限?

很多人在做 RAG 时,会把精力放在:

  • 模型选型
  • Prompt 优化
  • Rerank

但在真实工程中,一个更底层、但经常被忽略的问题是:

你是怎么“切数据”的?

也就是:

Chunk(分块)策略


一、为什么一定要分块?

因为大模型有一个硬限制:

上下文窗口(Context Window)是有限的

你不可能把整本知识库直接喂进去。

本质问题是:

如何把“大文档” 拆成 “既能被检索命中,又能被模型理解”的最小单位?

二、Chunk 本质:信息的“最小可检索单元”

很多人把 Chunk 理解成:

“按字数切一下”

但更准确的定义应该是:

Chunk = 检索系统中的最小语义单元

它必须同时满足两件事:

  1. 能被检索命中(Recall)
  2. 被模型理解时是完整的(Coherence)

而问题在于:

这两个目标是天然冲突的


三、Chunk 太小 vs Chunk 太大(核心矛盾)

1. Chunk 太小(例如:50 tokens)

优点
  • 更容易命中关键词
  • Recall 更高
缺点
  • 语义不完整
  • 模型理解困难
  • 上下文断裂
  • 更容易产生幻觉

2. Chunk 太大(例如:1000 tokens)

优点
  • 语义完整
  • 上下文充分
缺点
  • 不容易命中
  • 噪声变多
  • Token 浪费严重
本质冲突:
小 chunk → 检索友好,但理解差 大 chunk → 理解好,但检索差复制

四、最常见的错误:按字符硬切

很多系统是这样做的:

chunk_size =500 overlap =50

然后直接切文本

问题在于:

  • 破坏语义结构
  • 句子被截断
  • 标题和内容分离

举个真实错误:

Chunk1: 报销流程包括提交申请... Chunk2: ...审批通过后进入财务打款

模型看到的是:

  • 两段“半截话”
  • 无法建立完整逻辑

五、正确思路:基于“语义结构”分块

不要按长度切,要按结构切

推荐优先级:

1. 文档结构切分(最优)
  • 标题(H1 / H2 / H3)
  • 段落
  • 列表
2. 语义边界切分
  • 句号
  • 换行
  • 语义停顿
3. 长度兜底
  • 超长再切

示例

【报销流程】 1. 提交申请 2. 部门审批 3. 财务打款

应该作为一个 chunk,而不是拆开


六、Overlap(重叠)到底有没有用?

很多教程会写:

overlap = 50 / 100

但很少讲清楚:

为什么需要 Overlap?

本质作用:

防止信息被“切断”

举个例子:

Chunk A: 提交申请 → 审批 Chunk B: 审批 → 打款

如果没有 overlap:

“审批”这个关键连接点可能丢失

但注意:

- overlap ≠ 越大越好 - 过大会导致: - 冗余 - 检索污染

工程建议:

chunk_size: 300~500 overlap: 10%~20%

七、不同业务的最优 Chunk 策略(重点)

不同数据类型,本质上需要不同的 Chunk 结构。

1. 企业知识库

特点:

  • 结构化文档多
  • 流程类信息多

推荐:

  • 按“段落 / 流程”切
  • 保证每个 chunk 是一个完整步骤

2. 技术文档

特点:

  • 上下文依赖强
  • 逻辑连续

推荐:

  • 较大 chunk(400~800)
  • 保留上下文连续性
  • 避免代码 / 配置被拆散

3. FAQ / 问答库

特点:

  • 每条独立

推荐:

  • 一个 QA = 一个 chunk
  • 不需要 overlap

4. 结构化数据(表格 / JSON)

不要乱切:

  • 一行 / 一条记录 = 一个 chunk

八、一个你必须知道的高级优化

多粒度 Chunk(Multi-Granularity)

思路:

同一份数据,切两套:

小 Chunk→ 提高 Recall 大 Chunk→ 提高语义完整性

检索时:

  • 先用小 chunk 找
  • 再映射回大 chunk

这可以同时解决:

  • “找不到”
  • “看不懂”

九、Chunk = RAG 的“地基”

很多人会优先优化:

  • 模型
  • Prompt

但忽略:

数据是怎么被组织的

更本质地理解:

Embeddin 决定表达能力 Chunk 决定信息结构 检索决定信息范围 Prompt 决定输入质量

十、一个重要事实

Chunk 不是“切文本”,而是在设计知识的最小表达单位。


收尾

如果你发现:

  • RAG 经常“答非所问”
  • 或者“明明有数据但就是答不出来”

那很可能不是模型问题,而是:

你的数据,从一开始就被切错了。


下一篇预告

下一篇我们继续往下拆:

Embedding 深入:为什么“相似”不等于“相关”?

包括:

  • 向量空间是怎么“失真”的
  • 为什么中文效果更难
  • 如何做模型选型与评估

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/893687/

相关文章:

  • 选择TokenPlan套餐在长期项目中显著降低大模型调用成本
  • 2026热门内江青砂岩排行:青砂岩边角料、青砂石材雕刻、佛像石材雕刻厂、内江石材雕刻厂、四川石材雕刻厂、墓碑石材雕刻选择指南 - 优质品牌商家
  • 2026年5月靠谱的标识标牌厂家哪家权威厂家推荐榜,金属标识牌、发光字、导视系统、户外标识厂家选择指南 - 海棠依旧大
  • 如何用LibreHardwareMonitor实现电脑硬件监控:新手用户的完整指南
  • 浙江正珉电气线上获客爆发:关键词排名跃升13.5倍询盘增长的背后,藏着一网推的“精准运营密码”
  • AutoResearch的四种常见循环和通用分析框架
  • 聚焦2026年第二季度:衡水有实力的滤筒除尘器厂家订购指南 - 2026年企业资讯
  • 使用Taotoken后API延迟与用量看板带来的直观体验变化
  • 养了十年龙虾,我劝你学点代码
  • 2026五大树洞陪玩隐私标杆平台权威报告 - 时时资讯
  • 2026可靠工地二手空调采购:宜宾荣生其商贸有限公司联系/开店设备采购/新旧二手市场/火锅店设备回收/酒店设备回收/选择指南 - 优质品牌商家
  • 用ESP8266和点灯App做个智能开关,5分钟搞定小爱同学语音控制(附完整代码)
  • 2026年洁净工程厂家推荐榜单:医疗洁净室/医疗器械/医药制药/食品饮料/化妆品/生物技术/手术室/GMP恒温恒湿车间最新优选 - 企业推荐官【官方】
  • Arduino Mega 2560 引脚映射与功能速查指南
  • 如何快速配置rtl88x2bu驱动:完整Linux Wi-Fi适配器安装指南
  • 影刀RPA店群自动化:智能重试与退避策略工程实践
  • 2026年 广东二甲苯/二氯甲烷/醋酸乙酯/三氯乙烯优质溶剂厂家推荐:专业溶剂油与洗枪水源头厂家的高纯度精选榜单 - 品牌企业推荐师(官方)
  • 物业养老服务数智化落地实践:从场景需求到技术实现路径
  • 2026成都酷路泽老改新服务深度评测报告:成都酷路泽老改新公司、成都酷路泽老改新推荐、酷路泽改装公司价格、酷路泽改装公司厂家选择指南 - 优质品牌商家
  • 从零搭建客服 Multi Agent 分流 检索 工单 回访的实战蓝图
  • 2026年树洞倾诉平台安全感实测:隐私保护谁过硬 - 时时资讯
  • 知识付费行业困局下,创客匠人如何用“结果式付费”破局
  • 告别手动输入密码!用Linux Expect脚本批量管理服务器,5分钟搞定自动化登录
  • 正规美术艺考培训的核心技术:中考美术艺考培训画室、中考美术艺考集训画室、美术艺考培训机构、美术艺考培训画室、美术艺考校考培训机构选择指南 - 优质品牌商家
  • 【技术判断力:法则一】3、如何找到唯一且正确的架构目标?4步定目标+6问判方案+实战案例
  • 别再拍脑袋分预算了!用Python实战马尔科夫链,科学量化你的广告渠道贡献度
  • 2026成都打印机租赁:成都周边打印机出租、成都周边打印机租赁、成都彩色打印机出租、成都打印机出租公司推荐、成都打印机出租哪家好选择指南 - 优质品牌商家
  • CAXA 中心孔标注
  • 2026年Q2邢台地区商砼站直销厂商盘点与选型指南 - 2026年企业资讯
  • PICT成对测试工具:如何用数学思维减少80%测试用例的终极指南