当前位置: 首页 > news >正文

AI和大模型——基础

一、RAG

RAG‌,Retrieval-Augmented Generation,检索增强生成。2020年,Facebook AI Research(FAIR)团队发表名为《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》的论文,此论文引入了RAG并对其进行详细介绍和说明。
RAG是一种结合‌信息检索‌与‌大语言模型生成能力‌的人工智能技术框架,主要用于提升模型回答问题的‌准确性、时效性与可解释性‌。它可以有效的降低AI中的幻觉问题和知识静态化的问题。其通过为大模型提供可靠的知识库外联来生成更加可信、有效的问题结果。
由于大模型的爆发时间并不多长,所以其发展的时间也相对不长,主要为分以下几个阶段:

  1. 传统RAG‌:传统的Indexing-Retrieval-Generation即“Retrieve-Read” 框架
  2. 高级RAG(Advanced RAG):引入重排序(Reranking)、查询扩展、HyDE等提升检索质量
  3. 模块化RAG(Modular RAG):任意模块可组合替换并支持自适应检索‌
  4. 多模态RAG‌:所谓多模态就是支持图像、音频、视频等多种非文本数据‌
  5. Agentic RAG‌:结合智能体(Agent)自主规划与决策能力‌
  6. GraphRAG:引入知识图谱来增强RAG。可检索文本及实体间的复杂关系

二、技术组件

对RAG来说,其主要的核心组件主要包括以下几种:

  1. 嵌入模型
    这个很容易理解就是将文本等非结构化数据进行映射成为高维数值的向量
  2. 向量数据库
    负责将上一步的向量进行存储与检索,数据量会非常大
  3. 分块策略
    对文档切块,便于逻辑上的处理用于检索
  4. 检索与重排序
    类似于网页搜索,将向量数据库中找到的相关度高的内容进行排序并按优先级排序
  5. 大语言模型
    将相关排序的结果(增强)送给大模型并进行处理,并返回最终的结果

三、工作流程

RAG的工作流程其实很简单,对于没有接触过RAG开发的人来说,也没有什么复杂度。它主要包括:

  1. 索引和检索
    分割外部知识库然后Embedding至向量并存入数据库。用户通过接口将提问转化为向量并在数据库中进行匹配(ANN,近似最近邻),找出相似的向量
  2. 增强
    将用户的查询内容和检索到的相关知识一起Embedding到一个提前准备好的的提示词模板中供大模型使用。即一个“增强”提示(Prompt)
  3. 生成
    将增强后的提示输入到大模型中,获取最后的结果

四、关键技术点

在RAG的应用中,有几个需要注意的技术点:

  1. Bi-Encoder 和 Cross-Encoder
    Bi-Encoder和Cross-Encoder是RAG中两种核心的编码器架构,分别用来实现高效初检和精准重排序。Bi-Encoder是把query和document各自单独送进同一个编码器,然后使用余弦相似或点积来计算二者的距离。它们没有交互,所以其检索速度快。但回答精度低
    Cross-Encoder把query和document拼接到一块送入Transformer编码器,让二者充分交互,所以其回答精度高。但由于交互导致无法预建索引,导致速度慢。所以它只能用在精排阶段,即处理少量文档时才用
  2. Reranker
    重排序对初步检索到的一批相关文档,进行更精细的、二次的排序,把最可能帮助模型生成准确答案的文档尽可能排在前面,通常采用交叉编码器(Cross-Encoder)架构
  3. 阈值过滤
    即使进行了相关的Reranker后,往往其数据也未必真正与用户的问题有实际的关联。也就是说top-K在低关联度下回答仍然可能引入幻觉。这时候就需要对相关文档设置一个绝对的阈值来限制文档的使用。如果低于这一值,就会认为检索到的结果没有任何意义,也就不会输入到大模型中
  4. 关键词检索算法
    关键词检索算法即稀疏检索,是基于词频匹配和逆文档频率来计算查询与文档的相关性,它不依赖语义向量。一般是指BM25或早期的TF-IDF算法。
    BM25算法是对早期的TF-IDF算法的优化即引入词频饱和和文档长度归一化两个关键机制,使评分更合理

技术点的细节如果需要进行更加详细的了解和学习,还是需要进一步的查找相关的资料和书籍。不过现在RAG正火,很容易找到相关的资料,此处就不再赘述。

五、应用策略

在实际的应用中,对RAG的不同阶段会有不同的应用对策略。主要包括:

  1. 索引和检索阶段
    这个阶段主要可以引入分块策略、元数据增强、多级索引、混合检索、查询扩展及自适应检索等策略
  2. 增强阶段
    在这个阶段可以引入重排序、压缩去重以及智能体RAG及自反思RAG等策略
  3. 整体控制阶段
    在这个阶段可以引入缓存以及RAG微调嵌入、分层等策略

其实在实际的应用中,可能一两个策略无法有效的解决问题。所以一般会有几种策略混合应用,比如混合检索和Rerank;分块与元数据等等。解决问题就是好策略,不要纠结于哪个更优。当然,上面对具体的策略的说明还是没有展开,以后有机会再对其进行详细说明和应用分析。

六、总结

技术的发展导致新名词的出现频率非常多,开发者不要害怕。大家可以理解为新同事来了,一定会有一个新的名字,来得多了,名字也多。多接触,就会把这些名字理解和掌握。名词不难,难的是把技术吃透并加以运用。

http://www.jsqmd.com/news/695751/

相关文章:

  • ESP芯片开发的瑞士军刀:esptool 终极指南
  • 1007. 行相等的最少多米诺旋转
  • Morefine M600 6900HX迷你主机深度评测与性能分析
  • 智能体设计模式:从基础架构到实战优化
  • 2026年q2瓷砖胶十大品牌盘点:瓷砖胶十大名牌,瓷砖胶口碑排行,瓷砖胶品牌价格,十大瓷砖胶品牌,优选推荐! - 优质品牌商家
  • ESP8266的AT固件选型与升级指南:告别指令不响应,刷对固件事半功倍
  • 多元微积分核心概念与Python实践指南
  • 别再乱接MOS管了!手把手教你用S-8254A搭建4串锂电池保护板(附PCB布局避坑指南)
  • BERT模型解析:原理、变种与实践指南
  • R语言逻辑控制与函数编程实战指南
  • 2026年四川剪刀楼梯技术分享:高性价比厂家TOP5解析 - 优质品牌商家
  • 2026年比较好的沈阳政企高效搬家公司专业服务榜 - 品牌宣传支持者
  • 情绪化AI测试方法论:面向软件测试从业者的专业探索与实践路径
  • 基于无迹扩展卡尔曼滤波的路面附着系数估计系统:适用于Matlab Simulink的整车动力学...
  • 沈阳想找个飞书培训机构怎么找?
  • 2026年3月研究生融合门户操作手册推荐,一站式网上办事大厅/科研管理系统/融合门户/一网通办平台,融合门户方案多少钱 - 品牌推荐师
  • 2026年3月知名的数字人矩阵系统企业推荐,数字人矩阵/ai优化/抖音视频矩阵系统/GEO优化,数字人矩阵系统厂家哪家好 - 品牌推荐师
  • 2026年3月目前盘式干燥机实力厂家,干燥机/闪蒸干燥机/热风循环烘箱/盘式干燥机,盘式干燥机批发厂家选哪家 - 品牌推荐师
  • Stacking集成学习:提升机器学习模型性能的实战技巧
  • ExplorerPatcher深度解析:5个核心功能让Windows 11重获经典体验
  • Photoshop脚本开发入门:从看懂一个‘秋色效果’插件源码开始
  • 别再写(1<<63)了!详解C语言整数常量后缀与跨平台移植那些事儿
  • 2026年热门的沈阳政企高效搬家公司诚信商家榜 - 行业平台推荐
  • Day101112
  • 从收音机到蓝牙音箱:三极管功放电路的前世今生与实战避坑指南
  • 企业级WLAN部署与安全优化实战指南
  • 租房水电自动核算程序,表计数据上链,按用量自动结算,避免房东乱加价,数据造假。
  • 如何突破《原神》帧率限制:genshin-fps-unlocker深度技术解析与实战指南
  • 设计师必看:搞懂CMYK和RGB的区别,别再让印刷出来的颜色“翻车”了!
  • 告别模拟器:如何在Windows上轻松安装安卓应用的终极指南