当前位置：首页 > news >正文

RAG：发展演进全景

news 2026/5/13 20:28:39

RAG 从"基础检索"到"知识运行时"

RAG是大模型通用能力转化为企业实际需求落地的有效方案之一

RAG

2020 年，RAG奠基性文献发表——Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks。

在这之后，一方面是大模型（LLM）不断进化，另外一方面是企业落地AI的推进。RAG演变成一场涉及检索架构、推理机制、记忆系统与 Agent 编排的系统性发展。

RAG 从基础的"嵌入查询、取 top-k 块、塞进上下文窗口、生成"流水线演化成一个多阶段、可自我修正、具备规划能力的知识编排系统。

（gpt image2 生成~）

第一代：Naive RAG（2020–2022）

架构形态

Naive RAG 是最简洁的流程链路：

用户查询 → 向量检索（top-k）→ 拼接上下文 → LLM 生成

Naive RAG 流程由以下几个关键阶段构成：数据加载（导入所有文档）、数据分割（将大文档切分为小块）、数据嵌入（用嵌入模型将数据转为向量）、数据存储（将向量存入向量数据库以便搜索）。查询时，用同一嵌入模型将用户输入编码为查询向量，再与数据库中的所有向量进行相似度匹配，找出最近邻。

奠基

AI 系统与外部知识的交互方式，为知识密集型任务落地可行性打下基础。

大模型训练时自有知识库与外部知识库融合，能显著提升 AI 在这类任务上的表现。

局限性

Naive RAG 的简洁性使其易于起步，但也限制了它扩展和企业环境下持续交付准确结果的能力：由于仅根据相似度得分检索文档，存在相当大的准确性问题。

另外，整个流程链路是线性的、静态的、无反馈的。不支持在检索失败时自我修复、固定长度切块会割裂跨段落的上下文关联，导致检索到的块在语义上是孤立的碎片、嵌入模型的语义鸿沟则使专有名词、型号、缩写等词汇型查询容易漏检…

第二代：Advanced RAG（2023–2024 初）

为了提升 RAG 模型的整体效果与可持续性，检索系统从 Naive RAG 演进到了 Advanced RAG 和 Modular RAG，这其实是企业实践后对性能、成本和效率综合需求推动下的改进。

Advanced RAG 的核心理念是在检索前后各加一层优化：

[预检索优化] → 向量/混合检索 → [后检索优化] → 生成

预检索优化

查询改写与扩展：用户的原始查询往往简短、模糊，与文档中的表述存在语义距离。查询改写通过 LLM 将问题转化为更利于检索的表述；多查询扩展则生成多个视角的变体查询，并行检索后融合结果，扩大召回面。

HyDE（假设文档嵌入）：用"问题向量"检索"答案向量"，两者在语义空间中天然存在偏移；先让 LLM 生成一段假设性答案文档，再用该文档的向量去检索。

语义化分块：将固定长度切块替换为基于语义边界的切块，在段落、句群、话题转折处切分，而非机械地按字符数截断，使每个 chunk 在语义上更为自洽。

后检索优化

混合检索（Hybrid Search）：纯向量检索无法做到对词汇精确匹配。混合检索将稠密向量检索与 BM25 稀疏检索结合，通过倒数排名融合（RRF）合并结果集，既覆盖语义相似性，也覆盖关键词匹配。

重排序器（Reranker）：双编码器（bi-encoder，有些叫双塔）在检索阶段只能做近似匹配；交叉编码器（cross-encoder）则对每对查询-文档（query-doc成对出现）进行联合注意力计算，精度显著更高。成熟的检索系统可以组合使用多种方案：用蒸馏双编码器做第一阶段检索，交叉编码器对 top 候选重排，语义缓存跳过重复工作，ColBERT 类模型在延迟预算紧张时作为备选。

上下文压缩：不是把整个 chunk 塞进上下文，而是先提取 chunk 中与当前问题最相关的句子，再填入提示词，减少噪声的同时节省了上下文窗口空间。

第三代：Modular RAG 与自校正 RAG（2023–2024）

Advanced RAG 仍然是线性的。第三代的核心是让 RAG 系统具备了自我审视的能力（Agent的思路和反馈思路）。

Modular RAG 乐高化的检索架构

Modular RAG 将范式从静态、顺序的流水线转变为具备组合智能的动态目标导向系统。在这一架构中，RAG 过程被分解为专门的、可互换的模块：查询规划器、检索器、重排序器、答案生成器，由一个中央 Agent 或控制器编排。系统不再是固定的流水线，而是可以根据查询类型动态路由的模块组合。

Self-RAG 让模型自己决定何时检索

Self-RAG 训练模型按需决定何时检索，而不仅仅是检索什么，通过引入特殊的反思令牌（reflection tokens）来评估检索的必要性和质量。这使检索频率更合理，避免了"总是检索"带来的延迟浪费，也避免了"从不检索"带来的幻觉风险。

CRAG 为错误的检索结果设计纠错策略

CRAG 的核心目标是通过增强自动自我修正能力和对检索文档的高效利用，提升生成过程的鲁棒性。CRAG 引入了一个轻量级的检索评估器，对检索文档的相关性进行评分，并据此触发不同动作：正确则直接使用，错误则触发网络搜索兜底，模糊则对文档进行分解-重组以提取精华。

FLARE 与 Adaptive RAG

FLARE 主动预判未来内容，在长文生成过程中每当模型对即将输出的内容感到不确定时就触发检索。Adaptive RAG 则是一种基于分类器的方案，根据预测的查询复杂度将其路由至单步、迭代或无检索的不同管道。

第四代：GraphRAG 与结构化知识检索（2024）

向量检索的本质是"找相似"，但有一类问题解决不了：跨文档的关系推理。"因为孤立的向量 chunk 之间没有任何连接。

GraphRAG 全局检索

GraphRAG 通过利用 LLM 生成的知识图谱，大幅提升了 LLM 在分析复杂信息时的问答能力。借助 LLM 生成的知识图谱，GraphRAG 大幅改善了"检索"环节，用更高相关性的内容填充上下文窗口，同时为每个生成的响应提供可溯源的来源依据。

GraphRAG 结合了文本抽取、网络分析与 LLM 摘要，构成一个端到端系统。

LightRAG 与图谱检索生态

LightRAG 通过双层检索和图增强索引提升了可扩展性；

GRAG 引入软剪枝技术以减轻检索子图中无关实体的影响，并采用图感知提示调优帮助 LLM 理解拓扑结构；

StructRAG 通过动态选择最优图模式来匹配特定任务。

局限性

高质量的知识图谱与对检索内容的合理重排序，对性能提升有正向作用。然而结构化知识检索并非银弹：GraphRAG 方法在简单问答场景下并不优于 Naive RAG，其优势主要体现在复杂多跳推理和全局主题分析上。知识图谱的构建本身依赖 LLM 的信息抽取质量，若抽取错误，图谱中的噪声会直接污染下游检索。

第五代：Agentic RAG（2025–2026）

Agentic RAG 是工程上的一次混搭，AI的事情那就AI来处理：谁来决定检索什么、何时检索、检索多少次？

从管道到智能体

Agentic RAG 系统不再是固定的顺序流水线，而是自主的、能够制定决策的智能体，在循环中规划、检索、推理、批判、改写、反思，最后输出结果。

Agentic RAG 能够规划、迭代检索、用分支逻辑推理、批判自身输出、从过去的失败中学习，并在每一步经济性地决定使用哪个模型。它们是真正意义上的自主信息系统。

关键技术组件

有状态图编排：LangGraph 将整个 RAG 系统建模为有向循环图（DCG），支持条件分支、持久化检查点和人在回路（human-in-the-loop）中断点。"检索-评估-再检索"的循环得以优雅地表达为图中的环路。

多工具调用与动态路由：Agentic RAG 中的智能体可以像调用函数一样调用不同的检索工具：向量数据库、SQL 数据库、网络搜索、REST API，并根据返回结果动态决定下一步行动。不同类型的查询被路由至最合适的数据源。

多层记忆系统：RAG 的三个核心特性是推理（Reasoning）、记忆（Memory）和多模态（Multimodality），前两者与 Agent 系统天然紧密关联。Agentic RAG 区分短期记忆（对话上下文）、长期记忆（跨会话偏好）和知识记忆（外部文档索引），多层协同避免重复检索已知信息。

RAG 的未来

长上下文

很多模型已经支持百万级 token上下文窗口，而大推理模型进一步推动了解决极复杂任务的可能性。

然而很多大模型在处理极长或噪声极多的输入上下文时依旧存在很多问题，实际有效上下文长度远不如宣传的那样，往往无法有效提取关键信息，而大推理模型在处理无关或冗余内容时会产生过多推理开销。

RAG 的价值依旧存在，节省上下文空间和精确控制信息质量一直是大模型和企业实际需求的必选项。

知识运行时

传统的 RAG 基本模式是"检索文档、填充上下文、生成答案"，实际场景下更多企业部署把 RAG 视为知识运行时：一个将检索、验证、推理、访问控制和审计追踪作为集成操作统一管理的编排层。

类比 K8s管理应用工作负载的方式，知识运行时将对信息流实施检索质量门控、来源验证和治理控制，嵌入每一次操作之中。

这个背后驱动是Demo 与真实生产价值之间存在巨大落差。

多模态 RAG

文本已不再是唯一的检索单元。现实需求下的数据多样化，图像、表格、流程图等都是检索的对象。多模态 RAG 将视觉编码器引入检索管道，使系统能够处理视觉信息与文本信息的联合查询。

RAG在不断发展，与围绕LLM的其他技术一样；语义相似性和精准匹配之间本来就不可能是相等性质；追求绝对的准确性、速度、成本可能是个伪命题。

无论哪一代RAG，无论哪一种RGA，都不是简单的好坏、过时与不过时，Demo始终是Demo，实际生产场景中检索效率、经济效益、需求价值才是关键因素。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～