当前位置: 首页 > news >正文

RAG:嵌入模型评估与选型

在RAG系统中,嵌入模型是检索质量的关键组件,它决定了系统能否真正“理解”用户意图并从海量知识中精准召回相关信息,其语义匹配精度直接决定了整个RAG的性能上限。

一、嵌入模型评估指标

1.1 公开基准

MTEB v2 是目前全球公认最权威的大规模文本嵌入模型评测基准(Massive Text Embedding Benchmark),用来解决多语言、多任务的嵌入模型能力评估问题。

MTEB v2 是MTEB 体系中的最新迭代版本,由 MTEB v1 基础测试集演进而来,整体难度有很大提示,增加了更多多语言和跨语言任务。

多语言 MTEB v2 超过100项任务,统一评测模型在检索、重排序、分类、聚类及语义相似度等关键任务上的真实表现。

注意MTEB v2 与 MTEB v1 的得分不具备跨版本的直接可比性

1.2 检索指标

1.3 系统性能指标

延迟(Latency)

嵌入延迟分两个环节:查询嵌入延迟(将用户查询转换为向量)和检索延迟(向量数据库查询)。

吞吐量(Throughput)

单位时间内可处理的嵌入请求数量,特别是在批量索引场景(大规模文档的一次性嵌入),实际生产的时候这个指标针对向量重建或者迁移极为重要的。


1.4 成本指标

索引成本(一次性)

查询成本(持续性)


1.5 模型能力指标

上下文窗口长度

上下文窗口(Context Window)决定单次嵌入能处理的最大文本长度,直接影响切块(Chunk)策略,比如:

  • • 8192 Token:约 6000 词,中等文档段落
  • • 32768 Token:约 24000 词,可嵌入完整章节
  • • 128000 Token:约 96000 词,可嵌入完整长合同或研究论文

一般来说,上下文窗口越长,切块粒度越粗,跨块边界丢失上下文的可能性越低;但更长的文本内部,相关性信号也会被稀释。所以实际业务场景中并非"越长越好",具体得看文档结构。

多语言、跨语言检索能力

多语言检索与跨语言检索还是有点区别的:

  • 多语言检索:模型能在各自语言内进行检索(中文查询找中文文档、英文查询找英文文档)
  • 跨语言检索:中文查询能找到英文文档,反过来也是一样的,这就需要不同语言的向量空间对齐
多模态支持

多模态嵌入支持将不同媒体类型映射进同一向量空间(Unified Vector Space),从而支持跨模态检索:文本查询检索图像、图像查询检索文档、音频内容语义搜索等。


1.6 评估流程

公开基准分数是选型的参考之一,但更多参考还是得在自己的数据上运行评估。

(GPT image2 画图~)


二、嵌入模型选型


2.1 主要模型

Gemini Embedding 001 / Gemini Embedding 2

  • • 001 是当前商业 API 中英文检索精度最高的模型,支持 100+ 语言,通过 Matryoshka 可降至 768 维,成本约 $0.075/1M token。仅提供 API,与 Google Cloud 深度绑定。
  • • 2 是 Google 首个原生多模态嵌入模型,文本、图像、音频、视频统一映射到 3072 维空间,8192 token 上下文,输出维度可调。
    适用场景:已有 GCP 生态、追求最高 API 检索精度、跨模态需求(选 Embedding 2)。

Qwen3-Embedding-8B
自托管可用模型中多语言性能最优,Decode-only 架构配合双向注意力,32K token 上下文,覆盖 100+ 语言及代码,输出维度 32–7168,Apache 2.0 许可。另有 0.6B/4B 变体供选择。推理时添加任务指令前缀可稳定提升效果。
适用场景:需要最强开源多语言性能、完整基础设施控制、有 GPU 资源。

Microsoft Harrier-OSS-v1
三款 MIT 许可解码器架构模型(27B、0.6B、270M),均支持 32768 token 上下文。小版本通过知识蒸馏获得远高于同参数量的质量。
适用场景:多语言检索为核心,有充足算力可选 27B;算力有限时小版本几乎可在任意环境部署。

Voyage-3.1-large / Voyage 4

  • • 3.1-large 在 $0.05/1M 性价比突出。
  • • Voyage 4 系列算是业内首创同家族向量空间兼容,可用大模型建库、voyage-4-lite($0.02/1M)查询,大幅降低持续成本。同时提供法律、金融、代码、多语言等专用模型。
    适用场景:托管 API 中性价比优先、有领域需求(代码/法律/金融)、需要分层降本的强检索场景。

BGE-M3
MIT 许可下最通用的开源混合嵌入模型,单一推理同时产出稠密和稀疏向量,无需单独维护 BM25 索引。568M 参数可单 GPU 运行,支持量化。需搭配原生支持多向量的向量数据库(Qdrant/Weaviate)。
适用场景:要求混合检索但希望最小化基础设施复杂度、免费自托管、多语言覆盖。

Cohere Embed v4
上下文窗口 128K token,可将超长文档整块嵌入的商业 API;对 OCR、扫描件、手写体等脏数据鲁棒性极强。提供 VPC 及本地部署,满足合规要求。单独检索能力偏弱,可能需要配合 Cohere Rerank 使用。
适用场景:企业脏文档、超长文档不可切块、受监管行业。

text-embedding-3-large
目前生产部署最广泛、生态最成熟的托管嵌入模型,几乎所有向量数据库和 RAG 框架原生支持,SLA 完善。支持 8192 token 上下文、最高 3072 维,高性价比的small版适合预算不多的场景。
适用场景:技术栈已深度集成 OpenAI,切换成本高于边际精度收益。

Nomic Embed v1.5
权重、代码、数据全公开(Apache 2.0)的嵌入模型,137M 参数极轻量,可通过 Ollama 直接本地运行。维度最大 768,多语言能力弱,检索精度低于大参数竞品。
适用场景:可审计、完全透明是刚需,资源与成本严格受限的小规模英文检索。

还有很多其他嵌入模型,比如ZeroEntropy zembed、Jina Embeddings等等,这里只是选择了一部分模型哈~


2.2 场景与选型

(GPT image出图~抽了几次卡,部分中文还是有点问题,勉强看一看)

选型


三、未来趋势

3.1 多模态嵌入

Gemini Embedding 2 的发布标志着嵌入领域进入多模态时代。

统一向量空间能很大程度上降低RAG架构复杂度,避免维护多套业务架构流程(CLIP + 文本模型 + 音频模型),自然也就省钱了。

3.2 长上下文嵌入

128K 上下文嵌入(Cohere Embed v4)和 32K 上下文嵌入(Qwen3、Voyage、Harrier)的到来,看起来chunk策略可能需要进行调整。

和LLM是一样的,先不说有效上下文窗口有多少,超长文档嵌入存在信号稀释问题,比如一篇 50 页论文被嵌入为单个向量时,向量承载的是整篇文档的语义重心,而非某个具体段落的精确语义,这样一来对于需要定位特定细节的查询,长块嵌入的精确率反而低于短块嵌入加重排序的组合。

也有些使用所谓父子检索(Parent-Child Retrieval)与长上下文的结合方案的,也就是用精细切块(256–512 Token)嵌入用于精确匹配,检索命中后返回父块(完整章节或段落)提供更丰富上下文给大语言模型。

3.3 领域专用嵌入模型

通用能力很重要,但是在法律、医疗、金融等领域反而需要更垂直的模型,就好像这些领域很多模型都是经过特定微调的。

从通用预训练模型进行领域微调(Fine-tuning),往往需要高质量领域标注数据的。

LoRA(Low-Rank Adaptation)等参数高效微调方法的成熟,微调成本倒是比以前下降了不少。

3.4 向量压缩

存储成本是大规模 RAG 系统的主要瓶颈之一,很多压缩技术都在不断发展。

结语

嵌入模型是 RAG 系统的的地基。

所有的提示词工程、重排序优化、智能体编排,都建立在一个前提之上:检索环节先把对的文档找出来。地基不稳,上层建筑再精巧也是徒劳。

技术上没有永远正确的选择,只有当下条件下最合适的选择。

开源模型已经在跑分数字上追平商业 API,多模态嵌入进入生产环境,向量压缩让亿级语料库的存储成本大幅度降低。但排行榜的数字永远是别人数据上的结果,跑分得结合自己实际业务跑才准确。

模型会继续迭代,排行榜会继续刷新。

注意,嵌入领域排行榜每月更新,定价随时可能调整。建议在正式选型前:

  1. 核查 MTEB 官方排行榜 的当前数据
  2. 核查各模型官方文档的最新定价
  3. 在自己的数据集上运行评估

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/806422/

相关文章:

  • Linux Xenomai系统在火箭半实物仿真中的深度应用
  • 零基础想学网络安全?初级入门教程一次性讲清
  • 【IDEA/基本设置】主题、字体、导包;Code Style配置(google的Java Code Stytle);git提交优化import;vscode设置Java规范
  • 深度强化学习在航天控制中的仿真到实物迁移挑战
  • 安卓AI助手深度解析:全局唤醒、多模态输入与智能体模式实战
  • IPv6核心技术解析与企业部署实战:从原理到物联网应用
  • FastAPI整洁架构实践:从分层设计到可测试代码
  • OptiSearch:浏览器扩展实现AI与搜索引擎的无缝集成
  • ComfyUI全面掌握-知识点详解——自定义节点安装与首次 AI 绘图(实操+排错)
  • 别再为本科毕业论文熬大夜!Paperxie 智能写作,一键搞定终稿的正确姿势
  • ResNet的“捷径”设计,如何影响了后来的Transformer和扩散模型?
  • 千问 LeetCode 2281.巫师的总力量和 Python3实现
  • 文档格式转换折腾、排版太丑?huashu-md-html:双向格式转换流水线,一站式解决万物转干净Markdown与精美HTML排版难题!
  • 渗透测试保姆级入门教程,零基础到精通一篇搞定
  • 过零电压比较器基础知识及Multisim电路仿真
  • DeepSeek大模型Kubernetes编排落地全链路(从Helm Chart定制到GPU拓扑感知调度)
  • 用ChatGPT批量生成高互动Instagram内容:5步工作流+4类避坑红线(数据实测CTR提升217%)
  • Linux---挂载系统
  • 基于Electron的本地字幕翻译工具开发全解析
  • CxFlatUI——一款开源免费、现代化的 WinForm UI 控件库
  • 用 LangChain 写一个最简 Agent:80 行代码搞清楚到底发生了什么
  • Linux开发工具
  • AI辅助Android开发:新时代的工程师技能要求与面试指南
  • 从富士康辩论看电子制造业:效率、成本与人性的技术平衡
  • Bunge组织架构重组:农业巨头的战略转型解析
  • 蓝桥杯EDA国赛备赛
  • AI 赋能的 Android 开发:迈向智能化、高效化的新范式
  • 特征提取:从手工特征到深度学习
  • Linux Deadline 调度器的应用场景:4K 视频解码与自动驾驶控制
  • 火山引擎 Agent Plan 初体验实测