当前位置: 首页 > news >正文

牛了,UMG-RAG实现自适应检索粒度

今天分享普渡大学的 UMG-RAG 论文,它回答了一个每个做 RAG 的人都会遇到的问题:chunk size 到底该设多少?

答案是:别拍脑袋定一个固定值。不同查询需要不同粒度,而检索器自己的分数分布会告诉你——它对当前查询有多确定。

粒度权衡:粗了有噪声,细了会漏检

RAG 的检索粒度是一个根本性权衡:

粗粒度 chunk(如 32 句一段)保留了完整上下文,答案很可能就在里面。但同时也塞了大量无关内容,让 LLM 遭遇 lost-in-the-middle——答案确实在上下文里,但被噪声淹没,模型可能忽略它。

细粒度 chunk(如 2 句一段)更精确,噪声少。但短 chunk 可能缺乏语义线索、实体别名或桥接上下文,导致检索器根本找不到它。

更关键的是,不同查询需要不同粒度。一个简单事实查询可能 2 句就够;一个需要多跳推理的查询可能需要 16 句的上下文来桥接信息。固定粒度注定无法同时服务两类查询。

UMG-RAG 的思路是:与其人工选一个粒度,不如同时用多种粒度检索,然后根据检索器自己对每条查询的"确定程度"来决定信谁。

主方案UMG-RAG

UMG-RAG 是 training-free 的。它不训练新 retriever,不修改 generator,只在现有 dense 和 sparse retriever 之上加了一层自适应融合。

第一步:多粒度多通道检索

文档被切成 5 种粒度的重叠 chunk:2、4、8、16、32 句。对每种粒度,dense retriever(如 BGE-M3)和 sparse retriever(如 SPLADEv3)各自检索 top-M=100 个候选。

这样,每条查询产生 5 × 2 = 10 组候选列表,每组对应一个 expert-粒度对。

第二步:分数分布 → 证据分布 → 熵 → 置信度

核心机制从这里开始。

不同 expert、不同粒度的分数不可直接比较——dense 分数和 sparse 分数量级不同,粗粒度分数和细粒度分数分布也不同。所以 UMG-RAG 先把每组分数归一化,然后转化成证据分布:

p_{e,g}(u|q) = softmax(s̃_{e,g}(q,u))

这个分布衡量的是:expert e 在粒度 g 下,把多少"证据质量"集中在候选 u 上。

然后计算归一化熵:

H_{e,g}(q) = -Σ p·log(p) / log(|C|)

低熵 = 分布集中 = 检索器有明确偏好 = 可信****高熵 = 分布平坦 = 检索器犹豫不决 = 不可信

置信度就是:

c_{e,g}(q) = 1 - H_{e,g}(q)

所有 10 组 expert-粒度对的置信度归一化后,作为融合权重w_{e,g}(q)

第三步:置信度加权融合 + 长度惩罚排序

每个 chunk 的最终证据概率是所有 expert-粒度对的置信度加权混合:

P(u|q) = Σ w_{e,g}(q) · p_{e,g}(u|q)

然后按 evidence utility 排序:

R(u|q) = P(u|q) / sqrt(ℓ(u))

ℓ(u)是 chunk 的 token 长度。sqrt 惩罚温和地偏袒紧凑 chunk,但如果一个长 chunk 获得了很强的证据支持,它仍然可以排名靠前。

最终取 top-K=5 个 chunk 送入 generator。

这个设计的本质是:让检索结果自己告诉你它有多可靠。对于词汇匹配明确的查询,sparse retriever 在细粒度上的分数分布会很尖锐(低熵高置信),权重自然偏向它;对于需要语义理解的查询,dense retriever 在粗粒度上的分数分布可能更集中,权重就会偏向它。不需要训练,不需要人工调参。

UMGP-RAG:细粒度做定位器,粗粒度做上下文

UMG-RAG 还有一个扩展:UMGP-RAG(P = Parent Promotion)。

问题:细粒度 chunk 检索精准,但可能上下文不够;粗粒度 chunk 上下文完整,但噪声多。

UMGP-RAG 的解法:

  1. Parent promotion:g=2 或 g=4 的命中 chunk,提升到其 g=8 的 parent chunk。细粒度检索充当"定位器",告诉系统"答案大概在这里";返回给 generator 的是更宽的 parent,提供局部连贯性。
  2. Bounded evidence aggregation:多个细粒度 chunk 映射到同一个 parent 时,用A(v) = 1 - Π(1-P(u))聚合证据。多个命中的 parent 会获得更高分数——直觉上,如果多个独立检索信号都指向同一个区域,那里更可能包含答案。
  3. Overlap-aware deduplication:如果两个 chunk 的句子重叠超过 75%(较短者为准),跳过后来的。这避免了返回几乎相同的上下文。

实验结果

论文在 Natural Questions(NQ)和 HotPotQA 上测试,使用 3 个 dense retriever(BERT / BGE-M3 / Qwen3-Embedding-4B)+ SPLADEv3 sparse retriever,2 个 generator(Qwen2.5-3B / Llama-3.2-3B)。

最关键的发现:检索召回最高 ≠ 生成最好

以 BGE-M3 + Qwen2.5-3B-Instruct 在 NQ 上为例:

方法AR@5(检索)F1(生成)AR(生成)
LongRAG0.91010.45980.4219
Hybrid (RRF)0.82410.49270.4727
UMG-RAG0.80230.48090.4593
UMGP-RAG0.87590.50520.4794

LongRAG 的检索召回率最高(0.91),因为它的 chunk 很长,答案几乎一定在里面。但生成 F1 和 AR 却不如 UMGP-RAG——因为长 chunk 里太多噪声,答案可能出现在 LLM 不容易注意到的位置。

UMGP-RAG 的检索召回略低于 LongRAG,但生成质量最好。这验证了论文的核心主张:RAG 需要的不是最长的上下文,而是紧凑、连贯、与查询对齐的上下文。

Parent promotion 持续有效

在所有 retriever-generator 组合中,UMGP-RAG 都优于 UMG-RAG。这说明自适应融合最有效的方式是:用细粒度检索定位,用粗粒度 parent 返回上下文。

成本

多粒度检索确实增加了预处理开销:标准 RAG 0.15s/query,UMGP-RAG 5.36s/query。但生成阶段反而更快更省内存(0.33s vs 0.71s,6716 MiB vs 7558 MiB),因为送入 generator 的上下文更紧凑。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/1003536/

相关文章:

  • 2026年长期办公室保洁托管服务哪家靠谱,性价比高的公司怎么选 - mypinpai
  • 如何让Windows资源管理器直接显示3D模型缩略图
  • PTPX功耗分析避坑指南:毛刺功耗、多轨道模式这些高级选项你真的设对了吗?
  • 微信投票小程序怎么做,2026年最新投票平台深度对比测评 - 投票小程序
  • NSK MCM10010 旗舰级高刚性模组技术指南
  • 保姆级教程:在WinForm项目里给NModbus4 TCP客户端加上“心跳”与重连
  • 2026年仿木混凝土护栏品牌实力评测:从西南到华东,哪些厂家值得关注? - 优质品牌商家
  • 2026年实力强的豆包推广公司排名,靠谱豆包推广公司如何选择 - 工业品牌热点
  • 河南公办大专学历认可度高不高 - myqiye
  • NSK EM5025-6E 高速重载滚珠丝杠技术详解
  • 快递追踪器APP开发实战:基于HarmonyOS API 24的数据驱动应用完整案例
  • 企业级Web宠物商城网站管理系统源码|SpringBoot+Vue+MyBatis架构+MySQL数据库【完整版】
  • LLM通识指南 10|动手搭一个Agent + 通往AGI的三条路
  • 说说725LN销售公司,哪家性价比高 - mypinpai
  • Yokai依赖注入系统详解:基于Fx的现代化应用架构设计
  • 别再手动改表了!用Liquibase管理数据库版本,5分钟搞定Spring Boot项目集成
  • 2026年成都别墅带花园的推荐,品牌公司哪家好用又靠谱 - myqiye
  • 键盘微行为情绪识别:轻量无感的前端状态感知方案
  • Python基础教学:指定目录的遍历操作
  • AdS-Teo虫洞中的共形对称性与量子引力效应
  • AI学习操作系统:构建可验证、可反馈、可演进的认知网络
  • 年会现场直接用的纯HTML抽奖程序,改几行JS就能开抽
  • 舍友打架模拟器APP开发实战:基于HarmonyOS API 24的宿舍生活模拟游戏从零到一
  • WPF高频绘图方案:WriteableBitmap多线程双缓冲实战代码包
  • 2026年网站定制开发公司靠谱吗,咨询00Cr25Ni20Mo2N尿素钢厂家哪家好 - mypinpai
  • 如何快速实现Unity高性能滚动列表:终极优化指南
  • 大语言模型如何成为机器人的认知中枢与任务编译器
  • 2026年成都别墅有哪些热门的项目,选购指南与费用解析 - myqiye
  • 如何快速备份CSDN博客内容:面向技术博主的完整解决方案
  • Bash-stack Docker部署指南:从开发到生产的完整容器化流程