当前位置：首页 > news >正文

AI和大模型——基础

news 2026/8/1 14:58:42

一、RAG

RAG‌，Retrieval-Augmented Generation，检索增强生成。2020年，Facebook AI Research(FAIR)团队发表名为《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》的论文，此论文引入了RAG并对其进行详细介绍和说明。
RAG是一种结合‌信息检索‌与‌大语言模型生成能力‌的人工智能技术框架，主要用于提升模型回答问题的‌准确性、时效性与可解释性‌。它可以有效的降低AI中的幻觉问题和知识静态化的问题。其通过为大模型提供可靠的知识库外联来生成更加可信、有效的问题结果。
由于大模型的爆发时间并不多长，所以其发展的时间也相对不长，主要为分以下几个阶段：

传统RAG‌：传统的Indexing-Retrieval-Generation即“Retrieve-Read” 框架
高级RAG(Advanced RAG):引入重排序（Reranking）、查询扩展、HyDE等提升检索质量
模块化RAG(Modular RAG):任意模块可组合替换并支持自适应检索‌
多模态RAG‌：所谓多模态就是支持图像、音频、视频等多种非文本数据‌
Agentic RAG‌：结合智能体(Agent)自主规划与决策能力‌
GraphRAG：引入知识图谱来增强RAG。可检索文本及实体间的复杂关系

二、技术组件

对RAG来说，其主要的核心组件主要包括以下几种：

嵌入模型
这个很容易理解就是将文本等非结构化数据进行映射成为高维数值的向量
向量数据库
负责将上一步的向量进行存储与检索，数据量会非常大
分块策略
对文档切块，便于逻辑上的处理用于检索
检索与重排序
类似于网页搜索，将向量数据库中找到的相关度高的内容进行排序并按优先级排序
大语言模型
将相关排序的结果（增强）送给大模型并进行处理，并返回最终的结果

三、工作流程

RAG的工作流程其实很简单，对于没有接触过RAG开发的人来说，也没有什么复杂度。它主要包括：

索引和检索
分割外部知识库然后Embedding至向量并存入数据库。用户通过接口将提问转化为向量并在数据库中进行匹配（ANN，近似最近邻），找出相似的向量
增强
将用户的查询内容和检索到的相关知识一起Embedding到一个提前准备好的的提示词模板中供大模型使用。即一个“增强”提示（Prompt）
生成
将增强后的提示输入到大模型中，获取最后的结果

四、关键技术点

在RAG的应用中，有几个需要注意的技术点：

Bi-Encoder 和 Cross-Encoder
Bi-Encoder和Cross-Encoder是RAG中两种核心的编码器架构，分别用来实现高效初检和精准重排序。Bi-Encoder是把query和document各自单独送进同一个编码器，然后使用余弦相似或点积来计算二者的距离。它们没有交互，所以其检索速度快。但回答精度低
Cross-Encoder把query和document拼接到一块送入Transformer编码器，让二者充分交互，所以其回答精度高。但由于交互导致无法预建索引，导致速度慢。所以它只能用在精排阶段，即处理少量文档时才用
Reranker
重排序对初步检索到的一批相关文档，进行更精细的、二次的排序，把最可能帮助模型生成准确答案的文档尽可能排在前面，通常采用交叉编码器（Cross-Encoder）架构
阈值过滤
即使进行了相关的Reranker后，往往其数据也未必真正与用户的问题有实际的关联。也就是说top-K在低关联度下回答仍然可能引入幻觉。这时候就需要对相关文档设置一个绝对的阈值来限制文档的使用。如果低于这一值，就会认为检索到的结果没有任何意义，也就不会输入到大模型中
关键词检索算法
关键词检索算法即稀疏检索，是基于词频匹配和逆文档频率来计算查询与文档的相关性，它不依赖语义向量。一般是指BM25或早期的TF-IDF算法。
BM25算法是对早期的TF-IDF算法的优化即引入词频饱和和文档长度归一化两个关键机制，使评分更合理

技术点的细节如果需要进行更加详细的了解和学习，还是需要进一步的查找相关的资料和书籍。不过现在RAG正火，很容易找到相关的资料，此处就不再赘述。