当前位置: 首页 > news >正文

20260526_204029_RAG外部检索是多余的,英伟达最新成果颠覆认知

INTRA:用 decoder 的 cross-attention 查询做检索,同一份预编码状态做生成。训练 164K 参数,在多跳 QA 上超越 BGE、Qwen3-Embedding、Jina Reranker 等 9 种检索基线。

RAG 一直有个被忽略的问题

RAG 的标准架构是这样的:

  1. 检索器(BM25 / BGE / ColBERT)从语料中找到相关文档
  2. 生成器(LLM)把检索到的文本重新编码,然后生成答案

这个架构有个根本问题:检索器和生成器在不同的表示空间里工作

检索器在 embedding 空间打分,生成器在 transformer 隐藏状态空间理解文本。检索器觉得"相关"的文档,生成器不一定觉得有用——这就是retriever-generator mismatch。这个问题一直存在,但大家习惯了,就把它当成了 RAG 的固有代价。

NVIDIA 的 INTRA 论文问了一个更本质的问题:

既然注意力本身就是 query-conditioned 的信息选择机制,为什么不让模型自己检索自己的编码表示?

INTRA的解题思路

注意力 = 检索

先看注意力的计算:

再看检索的计算:给定查询 q,在文档集合 {k₁, …, kₘ} 中找到最相关的——本质上就是对 qk^T 打分排序。

两者都是 query-conditioned matching over candidate states。注意力就是检索,检索就是注意力——它们是同一个数学操作的不同实例化。

INTRA 把这个等式变成了工程实现:

  1. 用编码器把语料中所有 chunk 预编码为 {k₁, …, kₘ}
  2. 在问题后附加几个可学习的 retrieval token,让 decoder 的 cross-attention 查询状态 qₗ 对全语料所有 chunk 打分(用 ColBERT 风格的 MaxSim)
  3. 选 top-n chunk,用它们的同一份预编码状态作为 cross-attention 上下文,正常生成答案

两遍 decoder 前向传播,共享一份编码状态。不需要重新编码,不需要外部检索器。

RQWK:一个精巧的工程技巧

标准 Transformer 有一个问题:每层的 key 投影矩阵 W_{K,l} 不同,所以每层需要不同的编码表示 K_l。如果直接用 INTRA,存储开销从 O(M) 爆炸到 O(L×M)。

INTRA 提出了Reverse-QWK(RQWK):把 key 投影移到 query 侧。

标准做法:K_l = RMSNorm(K) · γ_{K,l} · W_{K,l}(每层不同的 key 表示)

RQWK:存储一份 K̄ = RMSNorm(K),query 侧做 q̃_l = (q_l · W_{K,l}^T) ⊙ γ_{K,l}

数学上完全等价,但所有层共享同一份编码表示。检索的 MaxSim 和生成的注意力都在同一个空间里计算——检索和生成真正统一了

训练和推理

训练164K参数,其余全部冻结

INTRA 的训练量小到不可思议:

  • 编码器:冻结
  • 解码器:冻结
  • 只训练:retrieval token 嵌入 ρ(~164K 参数)+ 层聚合权重 α(272 参数)

总共不到 17 万参数,在一个 4B 参数的模型上训练。

训练目标也很简单:对 oracle evidence chunk 的 soft cross-entropy——让 retrieval token 学会"把概率质量放在正确的证据 chunk 上"。

这么小的训练量就能起作用,说明检索能力主要是预训练模型内蕴的,INTRA 只是把这种能力"暴露"出来。

效率:预编码状态跨查询复用

标准 RAG 的步骤:

  1. 检索文本
  2. 生成器重新编码检索到的文本
  3. 解码

INTRA 的步骤:

  1. 检索预编码状态
  2. 直接解码(跳过重新编码

当语料是静态的(大多数企业知识库都是),预编码状态只需计算一次,之后每个查询都复用。10 亿 token 的语料,8-bit 量化后约 2.5TB 存储——不小,但对于企业级部署是可行的。

多跳 QA 上超越所有检索基线

在四个 Wikipedia QA 基准上评估:

检索质量(完整证据召回率)

INTRA 在HotPotQA、2WikiMultihopQA、MuSiQue三个多跳基准上,完整证据召回率全面超越 9 种检索基线,包括:

  • 稀疏方法:TF-IDF、BM25
  • 密集方法:BGE-large、Qwen3-Embedding-0.6B/4B
  • 重排序:Jina Reranker
  • 混合方法:Hybrid RAG (RRF)
  • ColBERT 风格 MaxSim 基线

为什么多跳场景特别强?因为 INTRA 的检索信号来自 decoder 的注意力权重——它天然编码了"回答生成需要什么信息"。多跳问题需要组装多个证据片段,decoder 的查询状态能感知这种需求,引导检索到所有必要的证据。

单跳 Natural Questions 上优势不大——只需要找一个直接支撑段落,decoder 引导的多证据组装没有太多发挥空间。

端到端 QA 质量

方法HotPotQA EM2Wiki EMMuSiQue EM
BM2530.222.58.3
BGE-large36.827.411.2
Qwen3-Emb-4B39.530.113.7
Hybrid RAG40.130.814.2
INTRA41.331.615.8

用同一个 T5Gemma2 生成器,INTRA 检索的文档生成的答案质量最好。

Gap Closure:同一个 decoder 做检索+生成比换更强的生成器更有效

INTRA 定义了 Gap Closure = (EM_INTRA - EM_random) / (EM_oracle - EM_random),衡量 INTRA 检索多大程度上弥合了"随机 chunk"和"完美证据"之间的差距。

结果:用同一个 T5Gemma2 decoder 做检索+生成,Gap Closure 最大。换成更强的生成器(Qwen2.5-7B、Qwen2.5-72B),EM 绝对值更高,但 Gap Closure 反而下降——因为更强的生成器有自己的注意力模式,INTRA 检索的证据和它的注意力不完全对齐。

这进一步证明了核心论点:检索和生成在同一个表示空间里工作,比检索器+生成器各搞各的要好。

写在最后

INTRA 的核心论点不是"RAG 不好",而是"RAG 的检索和生成不应该在两个表示空间里工作"。

注意力本身就是检索——这是一个被忽略了太久的等式。当你让同一个模型用自己的注意力查询去检索自己的编码表示,检索器-生成器失配就消失了,多跳推理的证据组装也变得更精准。

当前的限制也很明显:基于 T5Gemma2 4B,开源的编码器-解码器模型远不如 decoder-only 模型丰富和强大。但如果这个方向成立,未来的大型编码器-解码器可能会让 INTRA 的优势更加显著。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/894685/

相关文章:

  • CVAT实战:从标注到模型训练,如何用这个开源工具搞定你的第一个计算机视觉项目?
  • 开发者必备:可观测性思维如何重塑软件研发与运维
  • 2026年质量好的水泵/景观低压水泵/无锡喷泉低压水泵/水景低压水泵稳定供货厂家推荐 - 行业平台推荐
  • Claude模型家族实测横评:Opus、Sonnet、Haiku真实能力与选型指南
  • 2026年热门的变频电机/三相电机/YE3高效电机高口碑品牌推荐 - 品牌宣传支持者
  • 大模型数据隐私保护:PII脱敏对模型性能影响的量化分析与实践
  • 2026年评价高的护栏/厂区护栏/九江桥梁护栏推荐品牌厂家 - 品牌宣传支持者
  • 从光耦选型到采样电路实战:一个智能硬件项目的完整信号链设计复盘
  • 企业集成架构实战:从API、ESB到事件驱动,打通数字资产的核心路径
  • CubeSat激光通信系统设计与低成本实现
  • AI编程时代密钥安全:从硬编码到环境变量与自动化检测
  • 加热炉制造系统马尔可夫排队建模优化方法【附程序】
  • 2026年比较好的会展家具租赁/展会家具租赁优质厂家汇总推荐 - 行业平台推荐
  • 从A2A到控制平面:构建生产级多智能体系统的架构演进
  • ctf show web 入门256
  • 用Python手把手复现2013年的狼群算法(WPA),搞定你的第一个智能优化项目
  • 别再为串口数据长度发愁了!STM32F103用CubeMx配置HAL_UARTEx_ReceiveToIdle_DMA,轻松搞定不定长收发
  • SVM模型可解释性新视角:正交多项式核与ORCA框架深度解析
  • 数据科学家与数据分析师:从业务解释到预测建模的本质差异
  • 为什么网安人越来越焦虑?2026 行业现状与圈子生存困境全揭秘
  • MCP框架与Playwright/Puppeteer CLI浏览器自动化实战性能对比
  • 别再被坏底板坑了!手把手教你用TTL转USB模块给ESP32-CAM烧录程序(Arduino IDE 2.1.1实测)
  • AI智能体工作流构建实战:从状态机设计到工程实现
  • 给程序员的TA入门补课:用Unity Shader复习一遍图形学渲染管线(附OpenGL对比)
  • 2026年附近代理记账财税咨询/嘉兴代理记账报税/嘉兴公司注册代理记账精选推荐 - 品牌宣传支持者
  • 英伟达收购SchedMD:AI调度器Slurm控制权转移的技术影响与应对策略
  • 基于MCP协议构建AI智能体持久化记忆系统:从向量检索到动态上下文注入
  • LLM API安全测试:从提示词注入到架构防御的实战指南
  • ARMv8 AArch32异常处理机制详解与实践
  • 基于AssemblyAI与Groq构建语音控制AI智能体:从原理到实践