当前位置: 首页 > news >正文

RAG通识

关联知识库:RAG通识

起源:Meta发布RAG论文

2020年,Meta发布 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

https://arxiv.org/abs/2005.11401

why RAG?

  • 数据滞后
  • 企业知识库向量化,提供特定上下文的大模型增强搜索

定义

将结构化知识的精准性与生成式AI的创造力相结合。

搜索发展历程

  • 精确匹配 与或非 / 全文搜索
  • NLP自然语言处理 CNN,RNN (Transfomer架构之前)
  • Transfomer架构构建的LLM和RAG结合搜索实现:

实现思路 LLM+动态数据源

  • 检索阶段 从外部数据源检索与用户查询相关信息 【语义向量搜索】数据前置处理
    外部数据源:API,数据库,文档库等等

  • 生成阶段
    将检索信息和用户promot一起输入大模型,生成增强的回答。

模块化RAG —— 工程化

  • 搜索模块 在不同的数据源上搜索

技术栈

LangChain

  • 模块化设计,提供构建动态信息检索的组件

LammaIndex

  • 提供高效索引机制

RAG挑战

  • 数据隐私和安全
  • 系统性能
  • 多样化查询需求产生的查询路由功能 (似乎有点往agent上靠了)
  • 数据审计和监控

Embedding 向量化

计算多个向量之间的相似度并排序

  • 余弦相似度,向量夹角越小越相似

1 完全相同
0 没有相似性
-1 完全相反

数据索引和检索

索引

  • 倒排索引,全文检索
  • B树索引
  • 哈希索引

检索

  • 布尔模型

  • 向量检索

    • 余弦相似度
  • 概率模型(BM25 + 语言模型)

  • 神经网络模型agent开发指数

  • 相似度计算(向量模型和神经网络模型的实例化)

    • 余弦相似度 向量夹角越小越相似
    • 欧式距离:向量实际值
    • 点积 点积值越大越相似

技术实现

  • ElasticSearch
  • Annoy 向量化数据快速搜索
  • FAISS 为大规模向量数据设计 支持GPU加速

Transfomer自注意力机制

  • 输入嵌入(输入向量化)
  • 线性变换,得到查询,键,值三个向量
  • 注意力得分计算 计算查询向量和键向量的点积,得到注意力的得分(表示当前词对其他词的相关性)
  • 注意力权重计算

RAG工作范式

  • 朴素RAG 描述了RAG工作流程的基础框架
  1. 文档库向量化
  2. 根据查询条件向量化检索文档库
  3. 将查询和检索结果扔给大模型
  • 进阶RAG 基于朴素RAG的优化
  1. 文档向量化的精细控制 (分割策略,编码方法) 最佳实践?
  2. 检索前的用户查询优化(自动优化用户promot) + 检索后的文档重排序(权重机制 ,评分模型)当前最佳实践?
  3. 结果校验(生成内容语义一致性和事实准确性校验)
  • 模块化RAG
  1. 专用查询向量数据库 我怎么觉得这是基本条件呢?
  2. 回答融合,使用多个模型或多次回答,最终融合结果,适用于多角度解答和多源信息场景
  3. 微调 , 强化学习 (底层大模型的定制化)
  4. RAG模式编排,适用不同场景

RAG优势

  • 动态知识库更新
  • 专业性(eg:医学领域,结合最新的研究论文,临床指南,药品说明书,提供更加科学可信的建议,提升回答质量,增强用户对系统的信任感)

RAG应用场景

  • 基于规则的客户服务 到 RAG增强的客户服务 (动态检索知识库,产品手册,常见问题问答)

检索系统横评

基于知识图谱 wikidata, dbpedia
基于关系型数据库
基于向量数据库

向量数据量横评

es 生态

faiss gpu 多索引

milvus gpu 多索引 多模态友好 ai生态(langchain, llamaindex, hugging face)

嵌入模型选型

MTEB

  • 性能与资源消耗
  • 多语言
  • 本地部署/云托管
http://www.jsqmd.com/news/63195/

相关文章:

  • 软件工程学习日志2025.12.5
  • # MCP生态全景调研:协议、框架与实现全景图(2025-01)
  • 《Llamaindex大模型RAG开发实践》笔记
  • CMake初探篇一
  • # AWS全球宕机:DNS故障引发互联网级连锁反应
  • # 智能编辑器与传统IDE混合使用实践指南
  • # 【Context7 MCP测试】 RAG技术栈深度调研:Context7 MCP实战测试报告
  • # 35岁外包被裁后的一键复仇:Schultz事件背后的科技行业内部威胁新趋势
  • # LinkedIn代码重构失败案例:300万行代码的迁移困境与组织文化反思
  • 一只菜鸟学深度学习的日记:入门卷积
  • # 【测试场景2】2025年10月AI行业动态深度报告:技术突破、市场动向与产业洞察
  • AI规则管理实践经验:规则过多与AI注意力问题
  • # RAG开创性论文解读:检索增强生成的技术革命(Meta AI 2020)
  • Markdown图标美化Prompt
  • # RAGAS论文解读:RAG评估的标准框架(2023)
  • 人机共创精简价值Prompt
  • 可复用Prompt识别与生成专家Prompt
  • # HyDE论文解读:零样本密集检索的巧思(2022)
  • Scalar使用说明
  • # 思维链提示论文解读:开启LLM推理能力的钥匙(Google 2022)
  • VS2022启用调试外部NuGet源码
  • VS2022启用调试外部NuGet源码
  • alpine设置开机自启动服务
  • Scalar可视化OpenAPI文档中心
  • eshop创建订单执行流程详解
  • 最新版Flutter3.38+Dart3.10仿写抖音APP直播+短视频+聊天应用程序
  • eshop订单状态流转详解
  • ehop环境搭建
  • Blazor入门
  • 警惕!React服务器组件爆出高危远程代码执行漏洞