当前位置：首页 > news >正文

分块切断语义？哈佛InSemRAG解决了,速度快4倍

news 2026/6/5 15:28:08

今天分享电子科大、哈佛和 Nota AI 合作团队的 InSemRAG 论文。

先说结论：用 1B 参数的小模型驱动 RAG 全流程——查询改写、分块修复、覆盖审计——比用大模型做多跳 RAG 快 4.32 倍，效果还相当。关键不在模型大小，在流程设计。

RAG 的两个隐形瓶颈

意图无关检索：大多数 RAG 系统只用一种检索通道——要么 BM25 稀疏检索，要么稠密语义检索。但不同查询的特性完全不同：

“海绵宝宝住在哪里？”——简单事实，稀疏检索（关键词匹配）就够了
“为什么 2020 年居家办公突然爆发？”——需要推理，稠密检索（语义匹配）更合适
“如何避免论文被拒？”——抽象问题，需要扩展检索补充上下文

一刀切的结果：简单问题搜出一堆解释性文档，推理问题搜出表面相关的噪声。

信息碎片化：固定长度分块（如 256 tokens 一截）会无情地切断语义：

跨段引用断裂："他随后决定……"中的"他"指代上文的某个人名，分块后丢失
逻辑链断裂：因果推理的前半段在 chunk A，后半段在 chunk B
表格/列表被拦腰截断

这两个问题叠加的后果：LLM 收到的证据既不精准（意图不匹配），又不完整（语义被切断），再强的模型也答不好。

InSemRAG的解题思路

InSemRAG 的核心是一个"检索-检查"迭代循环，由两个模块支撑：意图感知检索（IAR）和语义保持分块（SPC）。

IAR：意图感知检索

第一步：双视图查询改写

用户查询往往不完美——太短（缺信息）或太长（含噪声）。IAR 用 SLM 把原始查询投影到两个正交子空间：

稠密视图 p_d：语义扩展——SLM 做查询释义（paraphrase），把查询推到语义聚类中心
稀疏视图 p_s：关键词提取——SLM 抽取命名实体和罕见术语，匹配长尾低频词

第二步：动态通道加权

传统混合检索用固定权重（如 α=0.5 稀疏 + 0.5 稠密）。InSemRAG 让 SLM 根据查询特征动态决定权重：

w = Softmax(MLP(SLM(q)))w = [α, β, γ]^T，α + β + γ = 1

三个权重分别控制稠密、稀疏和扩展检索的贡献。简单事实问题自动偏向稀疏，抽象推理问题自动偏向稠密。

第三步：加权融合检索

用改写后的稠密查询做稠密检索，稀疏查询做 BM25 检索，结果归一化后按动态权重融合排序。取 top-m（m=20）作为初始证据集。

SPC：语义保持分块

第一步：候选精炼

初始证据集太大，用 SLM 结合原始查询对每个 chunk 重新评分，取 top-k（k=10）。

第二步：损坏检测

SLM 判断每个分块是否语义完整——检查语法截断、未解析共指、断裂逻辑。完整性低于阈值 δ 的标记为"损坏"。

这里有一个容易被忽视的关键点：语法上"完整"的分块（以句号结尾、括号配对、长度 >50 tokens）仍然可能是语义碎片。比如"He then decided to pursue the matter"语法完整，但"他"是谁？只有回溯上文才知道。消融实验显示，用启发式规则替代 SLM 检测，HotPotQA 上下降 5.6 个 F1。

第三步：分块修复

对每个损坏的分块，回溯源文档，取其前后邻居分块拼接，然后用 SLM 压缩——保留原始语义内容，但控制在目标长度内：

c* = SLM_compress(c_pre ⊕ c ⊕ c_post, q)

不是简单扩展（那会超出上下文窗口），而是信息密度最大化的压缩缝合。

第四步：覆盖审计

修复后的证据集是否足够回答查询？提取查询的关键信息元素（KIE），检查每个元素是否被证据蕴含。未覆盖的元素转化为新查询，触发下一轮 IAR + SPC 迭代。

用 SLM 驱动全流程

InSemRAG 最务实的设计：所有中间环节都用 Llama-3.2-1B-Instruct——查询改写、通道加权、损坏检测、分块修复、覆盖审计。

为什么不直接用大模型？因为迭代机制下每轮需要多次 LLM 调用——如果用 GPT-4o 做，单次查询的成本和延迟会指数级增长。1B 模型做指令遵从已经够用，关键是"做对的事"而非"用最大的模型"。

效果：多跳任务提升最大

主实验

在 GPT-4o-mini、Qwen-turbo、DeepSeek-V3 三个生成器上，InSemRAG 一致优于所有基线：

数据集	指标	比 Naïve RAG	比最强基线
HotPotQA	F1	+6.32	+2.65
FEVER	Acc	+1.5	+1.5
2WikiMultiHopQA	F1	+7.78	+2.45

多跳和证据敏感任务提升最大——因为这类任务对信息完整性最敏感，而 SPC 正好修复了碎片化问题。

延迟

方法	HotPotQA 延迟
Naïve RAG	1.25s
Multi-Hop RAG	8.42s
InSemRAG	1.95s

比 Multi-Hop RAG 快4.32 倍，只比 Naïve RAG 慢 0.7 秒，但 F1 高出 22。

消融：每个模块都不可或缺

变体	HotPotQA F1	ELI5 ROUGE-L
InSemRAG 完整	66.85	31.15
去掉 SPC	59.45 (-7.4)	25.12 (-6.03)
用启发式替代 SPC	61.25 (-5.6)	27.8 (-3.35)
去掉动态加权	64.1 (-2.75)	29.8 (-1.35)
去掉查询改写	64.95 (-1.9)	30.25 (-0.9)

去掉 SPC 降幅最大——证明信息碎片化是 RAG 的核心瓶颈，而非检索通道选择。

换用 Qwen2.5-1.5B-Instruct 作为 SLM，结果仅下降 1.43 F1——框架不依赖特定小模型。

分块长度鲁棒性

在 chunk size = 128/256/512 三个设置下，InSemRAG 一致领先。尤其在小分块（128）下，Naïve RAG 和 Multi-Hop RAG 性能急剧下降，而 InSemRAG 保持稳定——因为 SPC 会修复碎片化证据。

总结

分块碎片化的杀伤力比你想象的大。即使分块在语法上看起来"完整"，仍可能丢失关键指代和逻辑链。SPC 的检测+修复机制值得尝试。

看起来RAG 的中间环节（查询改写、分块修复、覆盖检查）不需要用大模型。1B 小模型的指令遵从能力已经足够，把大模型留给最终的答案生成。

InSemRAG 的"小模型+好流程 > 大模型+暴力检索"是一个值得深挖的方向——流程工程的 ROI 可能比模型缩放的 ROI 更高。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～