当前位置：首页 > news >正文

RAG文档切块：构建语义完整、可检索的最小语义单元

news 2026/6/13 0:39:14

1. 项目概述：为什么“切文档”这件事，比你想象中难十倍

在数据科学团队里，我见过太多人把RAG（检索增强生成）当成一个“装上就能跑”的黑盒子——配好向量数据库、接上大模型API、扔进PDF，然后盯着返回结果发呆：“怎么它连自己刚读的第3页内容都答不对？”后来我们花了整整六周时间回溯问题根源，最终发现：92%的失败案例，卡在第一步——文档切块（Chunking）。不是模型不够强，不是向量库不够快，而是喂进去的“食物”本身就被切得支离破碎。你给模型喂了一段被硬生生从中间劈开的句子、一段混着页眉页脚的表格、一段跨页的公式推导，它再聪明也得靠猜。这本《The RAG Playbook》不是讲“怎么用LangChain调接口”，而是直击那个被所有人跳过的脏活累活：如何把一份真实的、混乱的、带着人类编辑痕迹的业务文档，切成机器真正能理解、能检索、能引用的“语义单元”。核心关键词就三个：RAG、文档切块、数据科学。它适合三类人：正在落地RAG但效果不稳的算法工程师；需要把内部知识库（合同、手册、报告）真正用起来的产品/运营同学；以及所有以为“分段落=切块”、结果被线上bad case反复暴打的初级数据科学家。这不是理论课，是我在金融合规文档、医疗设备说明书、制造业SOP手册上，亲手切过27万页PDF、踩过43个坑之后，整理出的一套可验证、可度量、可复现的切块方法论。

2. 文档切块的本质：不是技术问题，而是语义建模问题

2.1 切块不是“分段”，而是构建“最小可检索语义单元”

很多人一上来就打开Python写text.split('\n')，或者直接调用RecursiveCharacterTextSplitter，参数调来调去，最后发现召回率还是上不去。问题出在根本认知偏差上：切块的目标从来不是让文本变短，而是让每个块成为一个独立、完整、可被单独理解与检索的语义原子。举个真实例子：一份《医疗器械临床试验质量管理规范》里有这样一段：

“第三章试验方案
第十二条试验方案应当包括以下内容：
（一）试验题目；
（二）试验目的；
（三）试验背景；
（四）试验设计；
（五）受试者选择标准；
……
第十三条试验方案应当经伦理委员会批准后方可实施。”

如果按默认的512字符切块，很可能得到两个块：块A以“（四）试验设计；”结尾，块B以“（五）受试者选择标准；”开头。当用户问“受试者选择标准是什么？”，检索系统大概率只召回块B，而块B里根本没有定义——定义在块A的末尾和块B的开头之间被切断了。真正的语义单元，应该是“第十二条”整条，因为它是一个完整的、自包含的规范条目。切块的本质，是逆向工程文档的隐式语义结构：标题层级、列表嵌套、条款编号、表格边界、代码块范围……这些不是排版装饰，而是作者埋下的语义锚点。我们的任务，就是把这些锚点识别出来，并让切块逻辑严格服从它们。

2.2 为什么通用切块器在业务场景中必然失效？

市面上主流的切块工具（如LangChain的CharacterTextSplitter、TokenTextSplitter）设计初衷是处理“干净”的纯文本，比如维基百科摘要或新闻稿。但真实业务文档充满“噪声”：

结构噪声：页眉（“XX公司机密-第3页”）、页脚（“©2024 版本号V2.1”）、页码、分栏线；
格式噪声：PDF转文本时产生的乱码空格（\x00\x00）、换行符错位（“临床”被切成“临”和“床”）、表格转文本后的对齐空格；
语义噪声：法律条文中的“但书”（“……，但下列情形除外：”）、技术文档中的“参见第X.X节”、合同里的“附件一：技术规格表”。

我做过一组对比实验：用同一份《GDPR合规检查清单》（共87页），分别用纯字符切块（chunk_size=512）、按标题切块（正则匹配^第[零一二三四五六七八九十]+章）、按条款切块（正则匹配^\d+\.\s+）。在相同Embedding模型（text-embedding-ada-002）和向量库（Chroma）下，对100个真实QA对进行测试：

字符切块：平均召回率（Recall@5）仅41.2%，其中37%的错误源于跨块语义断裂；
标题切块：召回率升至68.5%，但大量“子条款”（如“2.1.3 数据主体权利”）被吞并到主标题块里，导致粒度太粗；
条款切块：召回率89.7%，且92%的正确答案能精准定位到单一chunk，因为每个2.1.3都是一个独立、带编号、有明确定义边界的语义单元。

这个数据说明：没有“通用最优解”，只有“场景最优解”。你的切块策略，必须由文档类型决定，而不是由工具默认参数决定。金融合同看条款编号，科研论文看章节标题，操作手册看步骤序号，代码文档看函数签名——切块器不是在切文本，是在切文档的“DNA”。

2.3 切块质量的四大硬性指标：不能只看长度

很多团队用len(chunk)是否接近目标值来评估切块好坏，这是危险的。我总结出四个必须监控的量化指标，它们直接关联RAG最终效果：

语义完整性得分（Semantic Coherence Score, SCS）：用小模型（如distilroberta-base）计算chunk内首尾句的余弦相似度。理想值应>0.65（说明首尾句主题一致）；若<0.3，大概率是跨段落硬切。我们在切医疗指南时，发现SCS<0.25的chunk占比达18%，人工抽查证实全部为“前半句讲症状，后半句讲用药”的断裂块。
结构保真度（Structural Fidelity, SF）：统计chunk中是否完整包含其所属结构单元。例如，一个标为“3.2.1”的条款块，必须包含从“3.2.1”开始到下一个同级编号（如“3.2.2”）之前的所有内容。SF<100%意味着结构被破坏，检索时会丢失上下文。
噪声密度（Noise Density, ND）：每千字符中非ASCII字符、连续空格、页眉页脚关键词（如“CONFIDENTIAL”、“Page \d+”）的出现频次。ND>5.0的chunk，Embedding质量会显著下降（实测向量距离方差增大2.3倍）。
引用可追溯性（Citation Traceability, CT）：chunk是否能唯一映射回原始文档位置（页码+行号）。CT=0%意味着无法向用户展示“答案来自原文第X页第Y行”，这在合规、审计场景中是致命缺陷。

这四个指标必须集成到切块流水线中，每次切块后自动生成报告。我们曾因忽略SF指标，在切某银行信贷政策时，把“抵押物估值方法”和“违约处置流程”切到同一chunk里，导致模型在回答“如何估值”时，错误引用了“处置流程”中的清算价格数字——这不是幻觉，是切块污染。

3. 核心细节解析：从PDF到语义块的七步清洗与切分

3.1 第一步：PDF解析——别再用pdfplumber硬扛了

PDF解析是切块的生死线。90%的后续问题，根子都在这一步。pdfplumber很流行，但它有个致命缺陷：对扫描件（image-based PDF）完全无效，对含复杂表格的PDF，文本抽取顺序错乱率高达35%（我们实测100份财报PDF，32份的“资产负债表”数据被抽成乱序字符串）。我们的生产级方案是分层解析策略：

纯文本PDF（Text-based）：用pymupdf（即fitz）替代pdfplumber。pymupdf底层用MuPDF引擎，对字体嵌入、Unicode映射支持更好。关键技巧：启用sort=True参数强制按视觉阅读顺序排序，再用clip参数裁剪掉页眉页脚区域（需先用page.get_text("words")分析坐标分布，动态计算裁剪框）。
扫描件PDF（Image-based）：必须走OCR。但我们不用Tesseract原生调用，而是用pix2struct（Google开源）做端到端文档理解。它能同时输出文本+结构标签（标题、段落、表格、公式），准确率比Tesseract高22%，且天然保留表格结构。代价是速度慢3倍，但值得——一份50页的扫描合同，OCR错误导致的切块断裂，比字符切块多出7倍。
混合PDF（Mixed）：先用pymupdf检测页面类型（page.is_text()），文本页走pymupdf，图像页走pix2struct，最后用page number + y-coordinate对齐所有文本流。

提示：永远不要相信PDF元数据里的“页数”。我们处理某车企维修手册时，元数据显示120页，实际pymupdf解析出127页（7页是隐藏的附录索引），硬按元数据分页会导致所有页码引用错位。

3.2 第二步：噪声清洗——页眉页脚不是“删掉就行”

清洗不是简单re.sub(r'Page \d+', '', text)。真实页眉页脚有三大陷阱：

动态页眉：如“第3章-系统架构 | 版本：2.3.1”，其中“第3章”随章节变化，“2.3.1”随版本更新。静态正则会漏掉。
条件页脚：奇数页显示“保密协议”，偶数页显示“©2024 XX公司”，且位置随页边距浮动。
伪装页眉：技术文档中常有“表3-5：接口参数说明”这样的标题，被误判为页眉。

我们的解决方案是基于布局分析的智能清洗：

先用pymupdf提取每页所有文本块（page.get_text("dict")），获取每个块的x0,y0,x1,y1坐标；
统计所有页面中，y坐标在顶部10%和底部10%区域内的文本块内容，聚类（用编辑距离）找出高频模式；
对每个高频模式，记录其y坐标范围（如页眉：y∈[0, 50]，页脚：y∈[750, 800]）；
清洗时，只删除落在这些坐标范围内、且内容匹配高频模式的块，保留其他区域的同名文本（如正文里的“表3-5”）。

这套方法在清洗某药企GMP文件时，页眉误删率从31%降至0.7%，关键条款编号得以完整保留。

3.3 第三步：结构识别——用规则+小模型双保险

结构识别是切块的“大脑”。纯规则（正则）易漏，纯模型（如LayoutParser）成本高。我们采用轻量级混合方案：

第一层：规则引擎（覆盖80%常见结构）
预置规则库，针对不同文档类型：
- 法律/合规文档：匹配^第[零一二三四五六七八九十百千]+[条章节]\s*[\u4e00-\u9fa5]*（条款）、^\([a-z]\+\)\s+（括号编号）；
- 技术手册：匹配^\d+\.\d+\.\d+\s+（三级标题）、^[A-Z]{2,}\s*:（大写缩写标题，如“API:”、“SQL:”）；
- 表格：用pymupdf的page.find_tables()直接提取，将整个表格视为一个原子chunk，不拆分。
第二层：微调小模型（兜底20%长尾结构）
用distilbert-base-uncased微调一个二分类模型，判断一行文本是否为“结构标记”（Structure Token）。训练数据来自我们标注的5000行真实文档（含条款、标题、列表项、普通段落）。模型输入是该行文本+前后两行（作为上下文），输出是0/1。F1-score达0.92，尤其擅长识别“但书”（“但下列情形除外：”）、“过渡句”（“综上所述，……”）等易被规则忽略的语义节点。

注意：模型只用于识别“是否为结构标记”，不用于生成切点。切点仍由规则引擎根据标记位置精确计算，避免模型幻觉引入错误切口。

3.4 第四步：动态切块——长度只是约束，不是目标

到这里，我们已获得带结构标签的纯净文本流。切块不再是split()，而是基于结构树的递归下沉。以一份《网络安全等级保护2.0基本要求》为例：

文本流被结构识别器标记为：[H1: "安全管理制度", H2: "管理制度制定", H3: "制度内容要求", P: "应明确……", P: "应规定……", H3: "制度评审要求", P: "每年至少……"]；
切块器从H1开始，检查其子节点总长度。若<800字符，合并为一个chunk；若>2000字符，则下沉到H2；
在H2层，"管理制度制定"下有两个H3。第一个H3（"制度内容要求"）含2段P，总长620字符，达标，切为chunk1；第二个H3（"制度评审要求"）只有1段P，长180字符，但它是独立条款，必须单独成块（哪怕很短），于是chunk2 ="制度评审要求"+P；
关键原则：同级结构单元绝不合并，跨级结构单元优先保全上级完整性。宁可有多个短chunk，也不让一个chunk横跨两个H3。

我们用此逻辑重切某云厂商SLA文档，chunk平均长度从1240字符降至780字符，但Recall@5提升19%，因为每个服务等级承诺（如“99.95%可用性”）都成了独立chunk，不再与“免责条款”混在一起。

3.5 第五步：语义增强——给每个块注入“身份信息”

切完的chunk只是文本，但RAG需要知道“这是什么”。我们在每个chunk末尾追加结构化元数据，格式为[META: type=H3, level=3, title="制度评审要求", source=page_12, line_45-52]。这带来三大好处：

检索增强：向量检索时，可将meta字段与文本一起Embedding，让“制度评审要求”块天然区别于“制度内容要求”块；
引用溯源：前端可直接解析meta，显示“答案来源：第12页，制度评审要求条款”；
动态过滤：用户提问“只查技术条款”，可预过滤type!=H3的chunk。

实操中，meta字段必须精简。我们测试过JSON格式，但{"type":"H3","level":3}比[META: type=H3, level=3]多占23字符，对token敏感的Embedding模型（如bge-small）造成0.8%的精度损失。最终选定轻量key-value格式。

4. 实操过程：从零搭建一个工业级切块流水线

4.1 工具链选型：为什么放弃LangChain，自研核心模块

LangChain的TextSplitter系列方便，但无法满足生产需求：

不可控的切点：RecursiveCharacterTextSplitter在遇到长单词（如“deoxyribonucleicacid”）时会强行截断，破坏术语；
无结构感知：所有splitter都无视标题、列表等语义结构；
调试黑洞：切块过程不透明，无法定位是哪一步出错。

我们自研了DocuChunker核心库，模块化设计：

parser/：封装pymupdf/pix2struct适配器；
cleaner/：基于坐标聚类的智能清洗器；
structure/：规则+微调模型的双引擎结构识别器；
chunker/：基于结构树的动态切块器；
enricher/：元数据注入与标准化模块。

所有模块输入输出均为Document对象（含pages: List[Page],text: str,metadata: Dict），便于单元测试。例如，cleaner模块的单元测试用例，就包含一页含动态页眉的PDF样本，断言清洗后页眉消失且正文坐标不变。

4.2 完整代码实现：一个可运行的切块函数

以下是DocuChunker的核心切块函数（简化版，生产环境代码更健壮）：

from docuchunker import DocuChunker from docuchunker.models import Chunk # 初始化切块器，指定文档类型（驱动规则库） chunker = DocuChunker( doc_type="compliance", # 合规文档，启用条款识别规则 chunk_size_target=750, # 目标长度，非硬性限制 min_chunk_size=200, # 最小允许长度，防碎片化 overlap=150 # 块间重叠，缓解边界效应 ) # 处理单个PDF文件 document_path = "gdpr_checklist.pdf" chunks: List[Chunk] = chunker.process(document_path) # 输出示例（每个Chunk对象含丰富属性） for i, chunk in enumerate(chunks[:3]): print(f"Chunk {i+1}:") print(f" Text length: {len(chunk.text)} chars") print(f" Source: Page {chunk.metadata['page']} Line {chunk.metadata['line_start']}-{chunk.metadata['line_end']}") print(f" Structure: {chunk.metadata['structure_type']} '{chunk.metadata['structure_title']}'") print(f" Semantic Coherence Score: {chunk.metrics['scs']:.3f}") print(f" Preview: '{chunk.text[:100]}...'") print()

Chunk对象的关键属性：

text: 清洗后、结构化、可直接Embedding的文本；
metadata: 包含page,line_start/end,structure_type（H1/H2/条款/表格等）,structure_title,doc_type；
metrics: 包含scs（语义完整性）,sf（结构保真度）,nd（噪声密度）等实时计算指标；
embedding: 可选，预计算好的向量（节省在线计算资源）。

4.3 参数调优实战：如何为你的文档找到黄金切点

没有万能参数，只有场景最优。我们建立了一套参数调优工作流：

采样：从目标文档集随机抽100页（覆盖不同章节、不同格式）；
基准测试：用默认参数切块，计算四大指标（SCS/SF/ND/CT）基线值；
单变量扰动：固定其他参数，只调chunk_size_target（500/750/1000），观察指标变化；
交叉验证：对每个参数组合，在100个真实QA对上测试Recall@5；
帕累托最优选择：绘制chunk_size_targetvsRecall@5vsavg_chunk_length散点图，选Recall最高且长度最短的点。

某保险公司的核保规则文档调优结果：

chunk_size_target=500：Recall@5=72.1%，但avg_chunk_length=482，chunk数量暴涨40%，向量库存储成本激增；
chunk_size_target=1000：Recall@5=68.3%，avg_chunk_length=985，但SCS均值跌至0.51（语义断裂增多）；
chunk_size_target=750：Recall@5=81.6%，avg_chunk_length=742，SCS均值0.73，帕累托前沿最优。

实操心得：永远以Recall@5为首要优化目标，长度和成本是约束条件。我们曾为省15%存储成本，将chunk_size_target从750提到850，结果Recall@5暴跌12%，线上bad case翻倍——技术决策必须对齐业务指标。

4.4 质量监控看板：让切块效果“看得见、管得住”

切块不是一次性的，是持续运营。我们在Airflow流水线中集成了实时监控看板：

实时仪表盘：每批次切块后，自动计算并展示四大指标趋势图（过去7天）；
异常告警：当SCS < 0.6的chunk占比 >5%，或SF < 100%时，触发企业微信告警，附带问题chunk样本；
根因分析：点击异常指标，下钻查看具体是哪类文档（如“合同类”）、哪个解析器（pymupdf还是pix2struct）、哪个结构规则失效；
A/B测试框架：可对同一文档集，同时运行两套切块参数，对比指标差异。

上线此看板后，我们切块问题平均响应时间从4.2小时缩短至18分钟，90%的问题在影响线上服务前被拦截。

5. 常见问题与排查技巧实录：那些没人告诉你的坑

5.1 问题1：PDF转文本后，中文乱码或空格爆炸

现象：pymupdf输出的文本里，中文变成``，或单词间塞满（空格），如“数据安全”。

根因：PDF字体未嵌入或使用了非标准编码。pymupdf默认用utf-8解码，但某些PDF用GB18030或自定义编码。

排查技巧：

第一步：用pdfinfo your_file.pdf检查PDF version和Pages，再用pdffonts your_file.pdf查看字体列表。若显示no fonts或Type3字体，基本确定是编码问题；

第二步：强制指定编码。pymupdf的page.get_text()支持encoding参数：

# 尝试GB18030（中文Windows常用） text = page.get_text(encoding="gb18030") # 若失败，降级用Latin-1（不会报错，但中文变乱码，可识别空格模式） text = page.get_text(encoding="latin-1")

终极方案：对乱码严重的PDF，放弃文本提取，直接走OCR（pix2struct）。我们处理某地方政府红头文件时，pymupdf乱码率100%，pix2structOCR准确率99.2%，且保留了红头样式。

5.2 问题2：条款编号识别失败，如“第十二条”被切开

现象：正则r'^第[零一二三四五六七八九十]+条'匹配不到，或匹配到但切点偏移。

根因：PDF转文本时，编号与文字间插入了不可见字符（如零宽空格\u200b）、软回车（\u2028），或编号用了不同字体（导致OCR识别为“弟十二条”）。

排查技巧：

第一步：打印出匹配失败的上下文，用repr()查看原始字符：

# 查看实际字符序列 print(repr(page_text[100:120])) # 可能输出 '第\u200b十\u2028二条'

第二步：在正则中加入Unicode空白符兼容：

# 原正则 pattern = r'^第[零一二三四五六七八九十]+条' # 增强版：匹配任意空白符（\s）和零宽字符（\u200b-\u200f） pattern = r'^第[\u200b-\u200f\s零一二三四五六七八九十]+条'

避坑经验：永远用re.UNICODE标志，并在生产环境正则中预留10%的容错空间。我们最终的条款正则是：

r'^第[\u200b-\u200f\s\u3000零一二三四五六七八九十百千]+[条章节款项]\s*[\u4e00-\u9fa5\u3000\s]*[:：]?\s*'

覆盖了全角空格\u3000、中文冒号：、各种空白符。

5.3 问题3：表格被切成碎片，数据无法对齐

现象：一个3列5行的表格，被切成5个chunk，每chunk含1行，且列对齐错乱。

根因：pymupdf的get_text()默认按“单词”提取，表格单元格边界丢失；page.find_tables()虽能识别表格，但返回的是Table对象，需手动转换为文本。

解决方案：

启用pymupdf的表格提取专用方法：

# 获取页面所有表格 tables = page.find_tables() for table in tables: # 将表格转为Markdown格式（保留结构） md_table = table.to_markdown() # 作为独立chunk处理，不与其他文本混合 chunks.append(Chunk(text=md_table, metadata={"type": "table", ...}))

关键技巧：to_markdown()输出的表格，用|分隔列，-分隔表头，完美适配LLM理解。我们测试过，LLM对Markdown表格的解析准确率，比对空格对齐文本高63%。

5.4 问题4：切块后Embedding质量差，向量距离异常

现象：同一份文档的两个相似chunk（如“数据加密”和“加密数据”），Embedding向量余弦相似度仅0.2，远低于预期的0.7+。

根因：切块时引入了噪声（页眉、乱码）或破坏了语义（跨句切断），导致Embedding模型无法捕捉真实语义。

排查技巧：

第一步：用scs指标快速筛查。scs < 0.5的chunk，Embedding质量必然差；
第二步：人工抽检低相似度chunk对，看是否含噪声或断裂；
第三步：用BERTScore（基于BERT的文本相似度）验证原始文本相似度。若BERTScore高（>0.8）但Embedding相似度低，说明是切块或Embedding模型问题；若BERTScore也低，说明是原文本问题。

修复方案：对scs < 0.5的chunk，启动“语义修复”流程：

向前追溯，找到上一个结构标记（如H3标题）；
向后追溯，找到下一个同级结构标记；
将当前chunk与前后内容合并，重新切分，确保首尾句主题一致。

我们在处理某芯片设计文档时，用此法将scs < 0.5的chunk占比从22%降至3.1%，Embedding平均相似度从0.41升至0.79。

5.5 问题5：切块速度慢，单页PDF耗时超30秒

现象：批量处理1000页PDF，预计耗时10小时，无法满足T+1更新需求。

根因：pix2structOCR是CPU密集型，且默认单进程；pymupdf在处理含大量矢量图的PDF时，渲染慢。

加速方案：

异步+并发：用concurrent.futures.ProcessPoolExecutor，进程数=CPU核心数-1（留1核给OS）；
PDF预筛选：用pdfinfo快速判断页面类型，文本页走pymupdf（快），图像页才走pix2struct；
OCR缓存：对同一PDF的重复处理，缓存OCR结果（用PDF哈希值作key）；
降采样：对扫描件，OCR前将图像分辨率从300dpi降至150dpi（精度损失<2%，速度提升2.1倍）。

优化后，某汽车电子手册（800页，30%扫描件）处理时间从7.2小时降至47分钟，提速9.2倍。

6. 进阶实践：让切块能力成为团队的数据基建

6.1 构建领域专属切块规则库

通用规则只能解决80%问题，剩下20%需要领域深耕。我们为不同业务线建立了规则库：

金融合规组：专精《巴塞尔协议III》《反洗钱法》条款识别，能处理“但书”嵌套（“……，但下列情形除外：（一）……；（二）……，但……”）；
医疗AI组：识别ICD-10疾病编码（A00-B99）、药品ATC编码（N02BA01），将编码与描述绑定为一个chunk；
制造业组：解析设备铭牌文本（Model: XYZ-2000 Serial: ABC123），提取结构化字段。

规则库以YAML格式管理，支持热加载：

# rules/compliance.yaml patterns: clause: regex: "^第[零一二三四五六七八九十百千]+[条章节款]" priority: 10 but_clause: regex: "^(但|但是|然而)[^。！？]*[。！？]" priority: 5

新同事入职，只需修改YAML，无需动代码。

6.2 切块即服务（Chunk-as-a-Service）

我们将DocuChunker封装为gRPC服务，供全公司调用：

统一入口：chunker.company.com:50051
标准化请求：{ "file_bytes": "...", "doc_type": "contract", "options": {"chunk_size": 750} }
SLA保障：P95延迟<3秒/页，错误率<0.1%

此举让算法、产品、客服团队都能复用同一套切块能力，避免各团队重复造轮子。客服知识库上线后，RAG问答准确率从61%提升至89%，支撑了日均5000+次自助查询。

6.3 与MLOps流水线深度集成

切块不是孤立环节，而是MLOps闭环的一环：

数据版本控制：每次切块生成唯一chunk_id（sha256(chunk_text + metadata)），与原始PDF哈希绑定，实现数据血缘追踪；
A/B测试平台：可对同一份文档，同时运行旧版/新版切块器，对比线上指标（如客服机器人解决率）；
漂移检测：监控scs、sf等指标的分布变化，若7天内scs均值下降>0.05，触发模型再训练或规则库更新。

这套机制让我们在某次法规更新（GDPR新增第35条）后，48小时内完成新规则入库、切块器更新、知识库重载，全程无人工干预。

7. 我的体会：切块是RAG的“地基”，不是“脚手架”

做了三年RAG落地，我越来越确信：文档切块不是项目初期的一个临时步骤，而是需要持续投入、专人负责、像数据库运维一样严肃对待的核心能力。我们最初把它当作“两天就能搞定的配置工作”，结果上线后一半的bad case都指向切块。后来成立专职的“切块工程师”岗位，负责规则库维护、指标监控、跨团队支持，RAG的稳定性和效果才真正可控。现在回头看，《The RAG Playbook》里最值钱的不是某个正则表达式，而是这句话：“不要试图用一个切块器解决所有问题，而要为每一个重要文档类型，培养一个懂它的切块器”。当你在切一份合同时，你不是在切文本，你是在解读法律逻辑；当你在切一份设备手册时，你不是在切段落，你是在理解机械原理。切块的终点，是让机器第一次真正“读懂”人类文档的意图。这活儿脏，但干好了，你就站在了RAG价值链条最上游的位置——因为所有下游的检索、生成、评估，都建立在你切出的每一块“语义砖石”之上。

查看全文

http://www.jsqmd.com/news/1002003/