当前位置: 首页 > news >正文

收藏这份RAG系统核心组件(Embedding ReRank)完全指南,轻松掌握大模型精髓!

今天想和大家聊聊 RAG 系统中最核心的两个组件——Embedding 模型ReRank 模型🔥

很多同学做 RAG 系统时,经常会遇到:

  • ❌ 检索结果不准确
  • ❌ 召回的内容不够相关
  • ❌ 排序不合理

这些问题很可能是因为没有选对 Embedding 和 ReRank 模型

这篇文章会帮你彻底理清:什么是 RAG?为什么需要它们?怎么选型?


一、RAG 是什么?🤔

1.1 一句话解释

RAG = 让 AI 读取自己的知识库

RAG(Retrieval Augmented Generation,检索增强生成)是一种结合了信息检索和文本生成的技术。


1.2 为什么需要 RAG?

LLM 的三大痛点 ⚠️

痛点说明
📚知识有限不知道你们公司的具体政策、产品的详细信息
🤥会胡说八道可能编造答案(幻觉)
🕐数据过时训练数据是过去的,最新信息不知道

RAG 的解决方案 ✨

用户问题 → 检索知识库 → 拼接上下文 → LLM 生成回答

把相关文档检索出来,送给 LLM 作为参考,这样回答就准确了!


1.3 RAG 完整流程图 🗺️

┌─────────────────────────────────────────────────────────────┐ │ 📋 RAG 完整流程 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │ │ 📂 文档 │ → │ ✂️ 切分 │ → │ 🔢 向量 │ │ │ │ 加载 │ │ 文档 │ │ 嵌入 │ │ │ └──────────┘ └──────────┘ └─────┬────┘ │ │ │ │ │ ▼ │ │ ┌──────────────────────────────┐ │ │ │ 📊 向量数据库 │ │ │ │ (Chroma / FAISS) │ │ │ └──────────────────────────────┘ │ │ │ │ │ ▼ │ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │ │ ❓ 用户 │ → │ 🔍 向量 │ → │ 🔄 重新 │ │ │ │ 问题 │ │ 检索 │ │ 排序 │ │ │ └──────────┘ └─────┬────┘ └─────┬────┘ │ │ │ │ │ ▼ │ │ ┌──────────┐ │ │ │ 🤖 LLM │ │ │ │ 生成 │ │ │ │ 回答 │ │ │ └──────────┘ │ │ │ └─────────────────────────────────────────────────────────────┘

二、Embedding 模型详解 📊

2.1 什么是 Embedding?

Embedding = 把文字转换成向量

就是把一段文本转换成一堆数字(向量),相似的文本会有相似的向量

通俗比喻 📝

"🐱 猫" → [0.12, -0.34, 0.56, ...] (1000维向量) "🐕 狗" → [0.11, -0.33, 0.55, ...] (和猫的向量很接近!✅) "🚗 汽车" → [0.89, 0.12, -0.34, ...] (和猫的向量差很远!❌)

💡向量距离近 = 语义相似!


2.2 为什么需要 Embedding 模型?

❌ 不用 Embedding 的问题

# 关键词匹配(落伍了)defsearchquery, documentsforinifin# 只能精确匹配return# 问题:# 用户搜 "电脑" → 找不到 "计算机" ❌# 用户搜 "买手机" → 找不到 "购买手机" ❌# 用户搜 "error" → 找不到 "bug" ❌

✅ 用 Embedding 的好处

# 语义匹配(更强!)defsearchquery, documents# 把查询和文档都转成向量# 计算相似度# 返回最相似的return# 优点:# "电脑" ≈ "计算机" → 能找到!✅# "买手机" ≈ "购买手机" → 能找到!✅# "error" ≈ "bug" → 能找到!✅

2.3 Embedding 模型选型 📈

主流模型对比

模型MTEB 分数维度特点推荐场景
OpenAI text-embedding-3-large64.33072效果好,价格适中通用场景
OpenAI text-embedding-3-small62.31536性价比高成本敏感
Cohere embed-multilingual-v3.064.81024多语言最强🌏 国际化
BAAI/bge-large-zh-v1.564.51024🇨🇳 中文开源最强中文场景
BAAI/bge-base-zh-v1.562.0768轻量中文中文/轻量
Qwen3-Embedding-8B70.58-多语言冠军多语言/高精度
Voyage-366.31024长文本友好📄 长文档
Jina AI v364.01024开源免费💰 省钱/自托管

📌 按场景选型

🇨🇳 场景1:中文场景
# 推荐:BGE 中文系列fromimport"BAAI/bge-large-zh-v1.5"'device''cpu'# 或者使用 APIfromimport"text-embedding-3-large"
🌍 场景2:多语言场景
# 推荐:Qwen3 或 Cohere"BAAI/bge-m3"# 支持 100+ 语言# 或使用 APIfromimport"embed-multilingual-v3.0"
📄 场景3:长文档
# 推荐:Voyage-3(支持 32K token)fromimport"voyage-3""your-key"
💰 场景4:省钱/自托管
# 推荐:Jina AI v3 开源版fromimport"jinaai/jina-embeddings-v3"'device''cpu'

2.4 Embedding 模型核心参数 ⚙️

# 完整配置示例fromimport"BAAI/bge-large-zh-v1.5"'device''cpu'# 或 'cuda''normalize_embeddings'True# 归一化(加速相似度计算)'batch_size'32# 批处理大小'show_progress_bar'True# 显示进度'convert_to_numpy'True# 转为 numpy# 使用"这是一个测试文本"printf"向量维度: {len(vector)}"

三、ReRank 模型详解 🎯

3.1 什么是 ReRank?

ReRank = 对检索结果进行重新排序

  • Embedding负责"召回"(找出相关文档)
  • ReRank负责"排序"(把最相关的排到前面)

3.2 为什么需要 ReRank?

❌ Embedding 的局限

⚠️ Embedding 的问题: • 只能处理单个文档的语义 • 无法理解查询和文档的复杂关系 • 对长文档效果下降

✅ ReRank 的优势

✨ ReRank 的优势: • 交叉编码,更精细地理解查询-文档关系 • 可以考虑更多特征 • 排序更准确

对比图 📊

┌─────────────────────────────────────────────────────────────┐ │ 检索阶段(Embedding) │ ├─────────────────────────────────────────────────────────────┤ │ │ │ 用户:如何修复 Python 错误? │ │ │ │ 文档库:[Python 教程, Java 错误修复, Python 异常处理, JS 调试指南] │ │ │ │ ↓ 相似度计算 │ │ │ │ 得分:[0.8, 0.3, 0.75, 0.2] │ │ │ │ ↓ 排序结果 │ │ │ │ 排序:1. Python 教程 2. Python 异常处理 3. Java 错误修复 4. JS 调试指南 │ │ ❌ 问题:Python 教程是泛讲的,不是专门讲"错误修复"的 │ │ │ └─────────────────────────────────────────────────────────────┘ ┌─────────────────────────────────────────────────────────────┐ │ 重排阶段(ReRank) │ ├─────────────────────────────────────────────────────────────┤ │ │ │ 用户:如何修复 Python 错误? │ │ │ │ 候选文档:[Python 教程, Python 异常处理] │ │ │ │ ↓ ReRank 精细分析 │ │ │ │ • "Python 教程":泛讲 Python,不专门讲"错误修复" → 0.6分 │ │ • "Python 异常处理":专门讲错误处理,匹配度高 → 0.95分 │ │ │ │ ↓ 最终排序 │ │ │ │ 最终:1. Python 异常处理 2. Python 教程 ✅ │ │ │ └─────────────────────────────────────────────────────────────┘

3.3 ReRank 模型选型 🎯

主流模型对比

模型类型特点推荐场景
Cohere rerank-v3.5API效果最好,速度快🏆 生产环境
Voyage AI reranker-v2.0API长文本友好📄 长文档
BAAI/bge-reranker-v2-m3开源🇨🇳 中文开源首选中文/自托管
BAAI/bge-reranker-base开源轻量快速轻量场景
jina-reranker-v2-base开源免费💰 省钱
Cross-Encoder/ms-marco开源经典基准📚 研究

📌 按场景选型

🏆 场景1:追求效果
# 推荐:Coherefromimport"rerank-v3.5""your-key"# 使用"如何修复 Python 错误"3
🇨🇳 场景2:中文场景
# 推荐:BGE Rerankerfromimport"BAAI/bge-reranker-v2-m3"'device''cpu'"如何修复 Python 错误"3
💰 场景3:省钱
# 推荐:Jina Reranker 开源版"jinaai/jina-reranker-v2-base"'device''cpu'

3.4 两阶段检索流程 🔄

fromimportfromimport# ===========================================================# 第一阶段:Embedding 召回(快速海选)# ==========================================================="similarity""k"20# 召回 20 个# ===========================================================# 第二阶段:ReRank 排序(精确决赛)# ==========================================================="BAAI/bge-reranker-v2-m3"5# 排序后取 top 5# 使用"如何修复 Python 错误"

四、实战:完整 RAG 流程 💻

4.1 代码示例

fromimportfromimportfromimportfromimportfromimportfromimportfromimportfromimport# ═══════════════════════════════════════════════════════════# 1️⃣ 加载文档# ═══════════════════════════════════════════════════════════"知识库.txt"# ═══════════════════════════════════════════════════════════# 2️⃣ 切分文档# ═══════════════════════════════════════════════════════════50050# ═══════════════════════════════════════════════════════════# 3️⃣ Embedding(第一阶段召回)# ═══════════════════════════════════════════════════════════"BAAI/bge-large-zh-v1.5""k"20# ═══════════════════════════════════════════════════════════# 4️⃣ ReRank(第二阶段排序)# ═══════════════════════════════════════════════════════════"BAAI/bge-reranker-v2-m3"'device''cpu'5# ═══════════════════════════════════════════════════════════# 5️⃣ 构建 RAG 链# ═══════════════════════════════════════════════════════════"""基于以下上下文回答问题。上下文:{context}问题:{question}回答:""""deepseek-chat""context""question"lambda"question"# ═══════════════════════════════════════════════════════════# 6️⃣ 查询# ═══════════════════════════════════════════════════════════"question""如何修复 Python 错误?"print

4.2 流程图

┌─────────────────────────────────────────────────────────────┐ │ 🚀 完整 RAG 流程 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ 用户问题 │ │ │ │ │ ▼ │ │ ┌─────────────────────────────────────────────┐ │ │ │ 1️⃣ 第一阶段:Embedding 召回 │ │ │ │ • 从向量库召回 top 20 │ │ │ │ • 速度快 │ │ │ │ • 粗筛(海选) │ │ │ └──────────────────┬──────────────────────┘ │ │ │ │ │ ▼ │ │ ┌─────────────────────────────────────────────┐ │ │ │ 2️⃣ 第二阶段:ReRank 排序 │ │ │ │ • 精细计算相关度 │ │ │ │ • 排序后取 top 5 │ │ │ │ • 精筛(决赛) │ │ │ └──────────────────┬──────────────────────┘ │ │ │ │ │ ▼ │ │ ┌─────────────────────────────────────────────┐ │ │ │ 3️⃣ 第三阶段:LLM 生成 │ │ │ │ • 拼接上下文 │ │ │ │ • 生成回答 │ │ │ └─────────────────────────────────────────────┘ │ │ │ └─────────────────────────────────────────────────────────────┘

五、选型总结 📋

5.1 组合推荐

场景EmbeddingReRank备注
🇨🇳中文通用BGE-large-zh-v1.5BGE-reranker-v2-m3性价比高
🌍英文通用OpenAI text-embedding-3-largeCohere rerank-v3.5效果最好
🌍多语言Qwen3-Embedding-8BCohere rerank-multilingual支持 100+ 语言
📄长文档Voyage-3Voyage AI reranker-v2支持 32K token
💰省钱Jina AI v3 开源jina-reranker-v2-base免费自托管

5.2 选型决策树 🌳

❓ 需要选择 Embedding/ReRank 模型? │ ├── 🇨🇳 中文场景? │ └── 是 → BGE 系列 │ ├── 🌍 多语言场景? │ └── 是 → Qwen3 / Cohere │ ├── 📄 长文档? │ └── 是 → Voyage │ ├── 💰 预算有限? │ └── 是 → Jina AI 开源版 │ └── 🎯 追求效果? └── 是 → OpenAI + Cohere

5.3 性能优化技巧 ⚡

Embedding 优化

# 1. 批处理"BAAI/bge-large-zh-v1.5"'batch_size'64# 增大批处理# 2. 归一化"BAAI/bge-large-zh-v1.5"'normalize_embeddings'True# 3. 使用 GPU"BAAI/bge-large-zh-v1.5"'device''cuda'

ReRank 优化

# 1. 控制召回数量"k"50# 多召回一些,给 ReRank 更多选择# 2. 使用轻量模型"BAAI/bge-reranker-base"# 比 v2 轻量'device''cpu'# 3. 异步处理importawait

六、总结 📝

6.1 一句话总结

组件作用比喻
Embedding把文字转成向量,用于召回🏊 海选
ReRank精细排序🎯 决赛

6.2 最佳实践 ✅

1️⃣ 先 Embedding 召回(20-50个)

2️⃣ 再 ReRank 排序(到 top 5)

3️⃣ 最后 LLM 生成

这样既保证了速度,又保证了准确性!🚀

普通人如何抓住AI大模型的风口?

领取方式在文末

为什么要学习大模型?

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!

最后

只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!

在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!

01教学内容

  • 从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!

  • 大量真实项目案例:带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

02适学人群

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

vx扫描下方二维码即可
【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!

03入门到进阶学习路线图

大模型学习路线图,整体分为5个大的阶段:

04视频和书籍PDF合集

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)

05行业报告+白皮书合集

收集70+报告与白皮书,了解行业最新动态!

0690+份面试题/经验

AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)

07 deepseek部署包+技巧大全

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

http://www.jsqmd.com/news/528567/

相关文章:

  • 论文降AIGC实测:免费降ai率指令+3款工具降重效果对比(2026最新) - 殷念写论文
  • 2026年制氮机厂家推荐:江阴隆耀机械制造有限公司,航天/食品/电子等20+行业制氮设备专业供应 - 品牌推荐官
  • 4个模块化步骤:用Godot Open RPG实现专业级游戏开发框架
  • 2026年苏州热门汽车服务公司排名,膜势头号玩家服务个性化且改装效果超棒 - 工业设备
  • 网易云音乐API全链路实战指南:从核心架构到性能优化
  • 2026年3月市面上值得关注的糖尿病陪诊公司推荐,有实力的糖尿病口碑分析博鳌乐城乐医通专注行业多年经验,口碑良好 - 品牌推荐师
  • 3个步骤掌握BepInEx:为你的游戏注入无限创意
  • 从CVE到实战:PublicCMS代码审计中的漏洞挖掘与利用链构造
  • 瑞祥商联卡正规回收平台推荐!安全可靠! - 团团收购物卡回收
  • Attention Residuals: 革新 LLM 残差连接的注意力机制
  • SonarLint vs SonarQube:静态代码扫描工具的区别与联合使用技巧
  • 智能处理驱动字幕提取效率革命:媒体与医疗行业应用指南
  • 2026年研发管理咨询公司推荐:制造企业转型升级实战派伙伴与高价值服务解析 - 品牌推荐
  • 2026年长沙AI搜索优化方案费用多少,湖南讯灵智能有答案 - 工业推荐榜
  • YYQ-100A圈带式动平衡机
  • 服务器虚拟化:宿主机柜功耗优化实战指南
  • 7大优势打造企业级React管理系统:基于Next.js 14与Shadcn UI的极速开发方案
  • BGE-Large-Zh本地部署教程:GPU/CPU自动适配+FP16加速一键启动
  • 2026年无缝钢管厂家推荐:聊城市开发区久汇钢管有限公司,全系无缝钢管产品供应 - 品牌推荐官
  • Windows磁盘碎片整理:原理、优化与性能指南
  • MiniMax Token Plan 9 折优惠链接 - 拂晓风起
  • 代码圣坛上的诅咒与救赎:测试工程师如何构建防删库系统
  • 零成本打造专业视频:开源录屏工具VokoscreenNG全攻略
  • FFmpeg API避坑指南:从av_register_all弃用到avcodec_send/receive的正确姿势
  • VS2022调试技巧:如何快速切换命令行参数测试不同功能(附3D视图操作指南)
  • 3分钟消除GitHub语言障碍:GitHub汉化插件让代码协作效率提升68%的实战指南
  • GHelper完整教程:如何为华硕笔记本安装轻量级控制工具
  • 2026年建筑上料机厂家实力推荐:巩义市众升机械制造有限公司,多规格爬山虎运料设备全解析 - 品牌推荐官
  • 手把手教你用SD卡给RK3399刷Ubuntu系统:详细步骤+分区扩容技巧
  • AI Can Learn Scientific Taste: 让人工智能拥有科学判断能力