当前位置: 首页 > news >正文

RAG系列:RAG核心技术原理解析

1. 核心流程全景图

RAG 的生命周期可以严格划分为两个平行的工作流:离线数据处理流(Data Pipeline)在线检索生成流(Query Pipeline)

RAG 核心工作流

1.1 离线数据处理流(Data Ingestion)

这个阶段的目标是把人类可读的非结构化文档,转化为机器可高效检索的“数学表示”。

  1. 文档加载与解析(Document Loading & Parsing)
  • 提取业务系统中的数据。对于云效工单,可能涉及请求 API 获取 JSON;对于历史文档,可能是解析 PDF/Word/Markdown。
  • 去除无用信息(清洗 HTML 标签、特殊符号、无关的水印等)。
  1. 文本分块(Chunking)
  • 为什么需要分块?大模型有 Context Window(上下文窗口)限制(如 8K、128K)。我们不可能把整个知识库一次性塞进去。
  • 分块策略:通常按段落、特定长度(如 500 tokens)进行切分,并且块与块之间保留一定的重叠(Overlap,如 50 tokens),避免把一句话从中间截断导致语意丢失。
  1. 向量化(Embedding)
  • 这是 RAG 的灵魂步骤。使用特定的 Embedding 模型(如text-embedding-3-smallbge-m3),将文本块映射为一个高维稠密向量(例如 1536 维的浮点数数组)。
  • 语义空间:在多维空间中,语义相近的文本,它们的向量坐标也距离相近。“服务器宕机”和“机器无响应”在字面上毫无关联,但在向量空间里它们紧紧挨在一起。
  1. 存储索引(Vector DB Indexing)
  • 将“原始文本块 + 对应的向量 + 元数据(Metadata,如工单号、时间、作者)”一并存入向量数据库中,建立 ANN(近似最近邻)索引。

1.2 在线检索生成流(Retrieval & Generation)

当用户(或 Agent 内部组件)发出一个查询时:

  1. 问题向量化(Query Embedding)
  • 把用户的自然语言查询(如:“云效流水线构建卡在 npm install 怎么办?”),使用同一个Embedding 模型转化为向量。
  1. 向量检索(Retrieval)
  • 向量数据库拿着“问题向量”,去海量的“知识块向量”中进行距离计算(通常是余弦相似度 Cosine Similarity)。
  • 召回距离最近的 Top-K(如前 5 个)文本块。
  1. Prompt 拼装(Prompt Augmentation)
  • 将检索到的 5 个文本块作为Context(背景知识),连同用户的Query,填入预设的 Prompt 模板中。
  • 模板示例:“请根据以下参考资料回答用户问题。如果参考资料中没有答案,请说不知道。参考资料:{Context};用户问题:{Query}”
  1. 大模型生成(Generation)
  • 大模型读取包含背景知识的 Prompt,进行推理,生成并输出最终答案。

2. 深入理解 Embedding 与相似度

很多初学者对“向量化”感到抽象。可以这样理解:如果我们要描述一个“苹果”,我们可以用[甜度, 红色程度, 硬度, 价格]四个维度来打分,得到一个向量[0.8, 0.9, 0.5, 0.2]。而“香蕉”可能是[0.9, 0.1, 0.2, 0.2]。 计算这俩向量的夹角,就能知道这两个东西在概念上有多“像”。

目前的深度学习模型可以将一句话映射为成百上千个维度。

  • 余弦相似度(Cosine Similarity):最常用的计算方法,测量两个向量夹角的余弦值。值越接近 1,语义越相关。
  • 欧氏距离(L2 Distance):测量两点之间的绝对直线距离。

3. RAG 相比传统关键字搜索(BM25)的优势

传统搜索引擎(如 Elasticsearch 默认分词搜索)依赖精确的词汇匹配。 如果用户搜“应用起不来了”,但历史工单里写的是“服务启动失败”,传统搜索可能一条也查不到。

而基于 Embedding 的 RAG 实行的是语义检索,它理解“起不来”和“启动失败”在语义空间中是相同的,因此能做到真正的“智能匹配”。(注:目前高级的 RAG 系统常采用 向量检索 + 关键字检索 的**混合检索(Hybrid Search)**架构以取长补短)。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/690153/

相关文章:

  • 2026年4月西安老酒回收机构估价能力权威排行盘点:西安剑南春回收,西安名酒回收,西安收老酒,实力盘点! - 优质品牌商家
  • VLC Android电视版和ChromeOS:3大核心优势与完整配置指南
  • Vue3 + wangEditor实战:如何像搭积木一样扩展一个自定义菜单(以“首行缩进”为例)
  • 告别信号模糊:手把手教你理解PCIe 3.0的动态均衡(含FIR滤波器与CTLE/DFE详解)
  • 如何彻底告别审稿焦虑:Elsevier Tracker让你的学术投稿进度一目了然
  • GB/T34944-2017 合规:Java 代码漏洞测试用例编写(附案例)
  • 时间序列预测中基线模型的重要性与实践
  • 解决QT配置Android时“Platfrom tools installed”等顽固错误的实战记录
  • 孕婴护理产品可以怎样来做一物一码防伪溯源呢
  • 沃虎连接器加速寿命测试(ALT)方法与其长期可靠性数据的关联解读
  • 保姆级教程:从零在Ubuntu 22.04 ARM版上配置SuperMap iServer服务并设置开机自启
  • 信息学奥赛刷题笔记:OpenJudge 1481 Maximum sum 的两种DP解法与避坑指南(附C++代码)
  • 街机现在还有得做吗?
  • 免费电视直播软件终极指南:mytv-android 让智能电视焕发新生
  • 保姆级教程:用Vector Configurator Pro配置AUTOSAR Dem模块的通用参数(附避坑清单)
  • 正交试验做完了,数据不够没法做方差分析?别慌,这里有2个亲测有效的补救办法
  • 代价敏感学习:解决不平衡分类问题的关键技术
  • 机器学习算法及案例
  • AI多因子定价模型:美元强化与能源约束下 黄金反弹受限弹性解析
  • 实战复盘:用Passware Kit Forensic搞定盘古石杯NAS取证,离线提取Windows密码真就这么简单?
  • OpenAI推出工作区智能体,GPTs退休,与微软、谷歌开启企业AI三国杀!
  • 给计算机研究生的选刊指南:如何从CCF A类里挑出最适合你方向的顶会顶刊
  • 火绒+SFC命令,给你的Win10系统做一次免费“体检”和“修复”
  • C++26静态反射API深度解析(ISO/IEC TS 23976正式采纳版)
  • LVQ算法解析:轻量高效的监督学习分类方法
  • 量子噪声在机器学习中的优化作用与实现策略
  • 导数入门:从斜率到变化率的数学与实践
  • conda 学习记录
  • 权限模型演进:从RBAC到ABAC的实战解析与选型指南
  • prometheus监控RocketMQ的方法