当前位置: 首页 > news >正文

RAG必备!6种相似性度量指标大揭秘,COSINE、BM25怎么选?附超全选型指南!

本文整理了六种常见的相似性度量指标:L2欧氏距离、内积、COSINE余弦相似度、汉明距离、杰卡德相似度和BM25。针对不同场景,如文本语义、图像特征、全文检索等,详细分析了各类指标的性质、适用范围和关键点。最后,提供了极简选型口诀,帮助读者在技术选型时快速找到最合适的度量方式。


在做RAG的时候,一般都会要求指定相似性度量的metric,对于文本语义,一般使用 COSINE,全文检索一般使用 BM25,这里对各种相似性度量指标做个整理归纳,供大家做技术选型。


统一前置规则

  • 距离类:数值越小 → 越相似
  • 相似度/打分类:数值越大 → 越相似
  • • 分三类:稠密浮点度量、二进制度量、稀疏文本度量

  1. L2 欧氏距离(Euclidean)
    =====================

公式

性质

  • • 类型:距离,越小越相似
  • • 同时看:向量方向 + 绝对数值幅值

适用

  • • 图像特征、点位坐标、物理传感器数值、聚类任务
  • • 不适合:文本 Embedding(幅值无物理意义)

关键点

不能随便归一化,幅值本身有业务含义


  1. IP 内积(Inner Product)
    =======================

公式

性质

  • • 类型:相似度,越大越相似
  • • 同时看:方向 + 向量模长(长度)

适用

  • • 推荐系统 MIPS 最大内积召回
  • • 未归一化的业务打分向量

关键结论

向量L2归一化后

排序结果完全一样,IP 计算更快


  1. COSINE 余弦相似度
    ===============

公式

性质

  • • 类型:相似度,越大越相似
  • • 只看向量方向完全忽略长度/幅值

适用

  • • 文本 Embedding、RAG、语义检索、问答、大模型向量

最佳实践

向量先归一化,直接用 IP 替代余弦,效果一致、性能更高


  1. HAMMING 汉明距离
    ===============

定义

两个二进制 0/1 向量,对应位置不一样的位数总数

性质

  • • 类型:距离,越小越相似
  • • 只看「每一位是否相同」,不看数值大小

适用

  • • 图片哈希、感知指纹、短文本指纹、二进制编码
  • • 配套索引:BIN_FLATIVF_BIN

限制

只能用于纯二进制 0/1 向量,不能用在浮点稠密向量


  1. JACCARD 杰卡德相似度
    =================

公式

性质

  • • 类型:相似度,越大越相似
  • • 只看集合有没有共同元素,不看权重、不看频次

适用

  • • 用户标签、兴趣集合、商品类目、行为序列匹配、人群圈选
  • • 适配:二元稀疏向量、集合型数据

特点

只关心「有无」,不关心「权重大小、出现多少次」


  1. BM25(Best Matching 25)
    =========================

本质

TF-IDF 升级版,工业级全文检索打分算法
综合:词频TF + 逆文档频率IDF + 文档长度惩罚

性质

  • • 类型:检索打分,越大越相关
  • • 只做关键词字面匹配,无语义泛化

适用

  • • 全文检索、RAG 关键词召回、专业术语/专有名词兜底
  • • 配套:稀疏向量+SPARSE_INVERTED_INDEX/SPARSE_WAND

定位

RAG 标配:BM25(稀疏关键词) + COSINE(稠密语义) 混合检索


六种相似性度量指标对比

度量类别规则核心关注点适配向量类型典型场景
L2稠密距离越小越像方向 + 绝对幅值浮点稠密图像、坐标、物理特征、聚类
IP稠密相似度越大越像方向 + 向量长度浮点稠密推荐MIPS、归一化后替代余弦
COSINE稠密相似度越大越像只看方向、忽略长度浮点稠密文本Embedding、RAG、语义检索
HAMMING二进制距离越小越像二进制位差异数0/1二进制哈希指纹、图片去重、编码比对
JACCARD集合相似度越大越像集合交集/并集二元稀疏/集合标签匹配、用户兴趣、人群圈选
BM25稀疏文本打分越大越相关词频+IDF+文档长度词条稀疏向量全文检索、RAG关键词召回

极简选型口诀

    1. 文本语义、Embedding、RAG →COSINE
    1. 推荐召回、利用向量长度做热度 →IP
    1. 图像、坐标、物理数值特征 →L2
    1. 二进制指纹、哈希去重 →HAMMING
    1. 标签、兴趣、集合匹配 →JACCARD
    1. 全文检索、关键词字面召回、RAG兜底 →BM25

最后唠两句

为什么AI大模型成为越来越多程序员转行就业、升职加薪的首选

很简单,这些岗位缺人且高薪

智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200% ,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

那0基础普通人如何学习大模型 ?

深耕科技一线十二载,亲历技术浪潮变迁。我见证那些率先拥抱AI的同行,如何建立起效率与薪资的代际优势。如今,我将积累的大模型面试真题、独家资料、技术报告与实战路线系统整理,分享于此,为你扫清学习困惑,共赴AI时代新程。

我整理出这套 AI 大模型突围资料包【允许白嫖】:

  • ✅从入门到精通的全套视频教程
  • ✅AI大模型学习路线图(0基础到项目实战仅需90天)
  • ✅大模型书籍与技术文档PDF
  • ✅各大厂大模型面试题目详解
  • ✅640套AI大模型报告合集
  • ✅大模型入门实战训练

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(0基础到项目实战仅需90天)

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤640套AI大模型报告合集

⑥大模型入门实战训练

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

http://www.jsqmd.com/news/873764/

相关文章:

  • Python之enc-dotenv包语法、参数和实际应用案例
  • 2026年北京餐饮一次性外卖餐盒包装盒厂家推荐:瀚隆包装为什么值得? - 企业深度横评dyy6420
  • Unity与Arduino BLE通信实战:跨平台稳定连接与帧解析
  • 大模型进化论:从聊天机器人到AI智能体,下一代智能的终极形态是什么?
  • CVE-2025-68493深度解析:OGNL沙箱坍塌与Java Web内网横向移动
  • Unity Mod开发必学:BepInEx五步构建与运行时陷阱规避指南
  • ThingsVis v1.1.15 版本更新:补齐嵌入与运维体验短板,多场景集成更可靠
  • PINNs赋能QSPR:将物理定律编译进分子性质预测模型
  • GPT-4稀疏激活机制解析:1.8万亿参数为何仅用2%
  • UE5手写HLSL实现高斯模糊:精准控制σ与采样策略
  • Mumu模拟器ADB连接Unity Profiler全攻略
  • 大模型规模信仰的科学反思:数据、架构与训练策略的结构性失衡
  • Kali+MCP协议构建AI自动化渗透测试流水线
  • 3步搞定AI训练平台!算力/框架/平台全解析,告别落地难题,附大模型精调实战!
  • Unity口型同步实战指南:LipSync语音驱动动画工作流
  • Unity风格化山脉管线:轮廓生成+分层材质+程序植被
  • Unity AssetRipper资产审计实战:从解包到幽灵资源定位
  • BepInEx插件开发全解析:Unity游戏Mod生态基建指南
  • 从零手写神经网络:NumPy实现两层MLP与反向传播详解
  • 一天干完一百万字,谷歌 agy 这个工具简直是头不要命的洪水猛兽
  • KNN算法如何赋能GIS空间邻近性分析
  • Mythos模型:通用大模型在网络安全领域的范式跃迁
  • FairyGUI GLoader动效动态接管与运行时替换实战
  • ReACT智能体:推理与行动解耦的AI工作流范式
  • 宁夏买家电推荐去哪里 - 资讯纵览
  • Mythos能力跃迁:大模型因果建模与可信度感知技术解析
  • 通过审计日志与用量看板追溯API调用问题与优化使用策略
  • AI智能体运行时正走向操作系统化:从血泪工程到基础设施
  • 万亿参数模型如何实现2%稀疏激活?MoE工程落地全解析
  • 神经网络初始化三大问题:梯度爆炸、激活塌缩与对称性破缺