当前位置：首页 > news >正文

【第四周】SmartChunk详细过程

news 2026/7/9 0:48:57

这篇文章提出的SmartChunk Retrieval是一种查询自适应（Query-Aware）的检索框架。它的核心目标是解决传统 RAG 中“固定分块”无法适应不同复杂度查询的问题，同时在保证准确率的前提下大幅降低计算和金钱成本。

以下是查询（Query,qqq）和文档（Documents,DDD）在该框架中经历的详细全过程：

在用户提问之前，文档库需要先经过处理，建立多层级的索引结构。

基础分块 (Base Chunking)：
- 原始长文档DDD被切分成细粒度的基础块（如句子级或短段落级），记为集合CCC。
构建层级 hierarchy (HHH)：
- 系统不仅仅保留细粒度块，还会通过聚合（Clustering/Aggregation）构建更粗粒度的块（如段落级、章节级、全文级）。
- 关键创新 - 压缩编码器 (Chunk Compression Encoder,EEE)：
  - 传统方法需要用大模型（LLM）对每个大块写摘要再嵌入，成本极高。
  - SmartChunk 训练了一个轻量级的压缩编码器EEE。它直接读取多个细粒度块的 Embedding，输出一个代表该大块语义的压缩向量。
  - 结果：文档库现在拥有一个多层级的向量索引，每一层代表不同的抽象粒度（从细节到宏观），且构建成本低。

这是 SmartChunk 的核心流程，分为四个步骤：

输入：用户查询qqq+ 文档元数据 (MetaData)。
执行者：规划器 (Planner,PPP)。这是一个经过特殊训练（使用 STITCH 方法）的小型语言模型。
动作：
- 规划器分析查询的意图和复杂度。
- 输出：预测两个关键参数 ——最小粒度 (levelminlevel_{min}levelmin)和最大粒度 (levelmaxlevel_{max}levelmax)。
- 例子：
  - 如果问“某具体数值是多少？”，规划器可能判定只需要看细粒度（句子级），输出[sentence,sentence][sentence, sentence][sentence,sentence]。
  - 如果问“故事的主旨是什么？”，规划器可能判定需要宏观视角，输出[paragraph,section][paragraph, section][paragraph,section]。
目的：动态缩小检索范围，只保留那些粒度在[levelmin,levelmax][level_{min}, level_{max}][levelmin,levelmax]之间的候选块，避免检索无关的碎片或过于模糊的大块。

输入：查询qqq+ 筛选后的候选块集合CcandidateC_{candidate}Ccandidate。
执行者：检索器 (RRR)。
动作：
- 将qqq编码为向量。
- 在CcandidateC_{candidate}Ccandidate中进行相似度搜索（Top-K）。
- 由于候选池已经过滤掉了不合适的粒度（例如去掉了太碎的或太粗的），检索到的内容更精准，噪声更少。
输出：一组最相关的文本块SSS。

为了让你更清楚qqq和DDD是如何被“智能”处理的，这里补充两个关键模块的训练逻辑：

规划器不是普通分类器，它需要平衡准确率和成本。文章提出了STITCH训练法：

难点：没有标准答案告诉模型“这个问题就该用段落级检索”。
解决方法：
1. RL 尝试 (Vanilla RL)：让模型自己猜粒度，如果猜对了（回答正确且成本低），就奖励。
2. 提示 RL (Hinted RL)：如果猜错了，给模型一个“专家提示”（比如：“试试扩大范围到章节级”），让它基于提示再猜一次。
3. 模仿学习 (Imitation Learning)：如果加了提示还不会，就把这个“专家解题全过程”存下来，专门用来微调模型（SFT），让它死记硬背这种难题的解法。
效果：规划器学会了根据问题类型（事实型 vs. 综合型）动态调整检索粒度。

传统做法：要把 10 个小块合并成一个大块→\rightarrow→调用 GPT-4 写摘要→\rightarrow→调用 Embedding 模型编码。成本极高。
SmartChunk 做法：
- 离线时：用 GPT-4 写少量摘要作为“老师”，训练一个小模型EEE。
- EEE学习直接映射：Embedding(小块1)+...+Embedding(小块n)→大块向量Embedding(小块1) + ... + Embedding(小块n) \rightarrow 大块向量Embedding(小块1)+...+Embedding(小块n)→大块向量。
- 在线时：完全不需要调用 GPT-4，直接用训练好的小模型EEE瞬间生成大块向量。成本极低。

步骤	传统 RAG (Static)	SmartChunk (Adaptive)
文档处理	固定切成 512 token 的块。	建立多层级hierarchy (句子~全文)，并用轻量模型压缩嵌入。
查询处理	直接编码查询，去所有块里搜。	先规划：分析查询，决定只搜哪几个层级的块。
检索范围	全量固定块（容易混入噪声或丢失上下文）。	动态子集：只搜最适合当前问题的粒度范围。
成本/速度	检索快，但为了准可能需要搜很多块或重复检索。	更优权衡：通过精准规划减少无效检索，通过压缩编码器省去摘要成本。