当前位置：首页 > news >正文

Elasticsearch-02-向量相似度算法

news 2026/3/26 20:18:32

Elasticsearch-02-向量相似度算法详解

概述

Elasticsearch支持多种向量相似度算法，用于处理稠密向量搜索。本文档将详细介绍三种核心算法：余弦相似度（cosine）、欧氏距离（l2_norm）和点积（dot_product），以及它们的选择策略。

1. Cosine（余弦相似度）

基本原理

余弦相似度衡量两个向量在方向上的一致性，而不考虑它们的长度。值范围在-1到1之间，1表示完全相同方向，-1表示完全相反方向，0表示正交。

计算公式

cosine_similarity(A, B) = (A · B) / (||A|| × ||B||)

其中：

A · B：向量A和向量B的点积
||A||：向量A的L2范数（长度）
||B||：向量B的L2范数（长度）

特点

关注方向：只考虑向量方向，忽略长度
归一化优势：对向量长度不敏感
范围限制：值在[-1, 1]之间

适用场景

文本向量：优先选择，因为文本向量的长度变化较大
语义搜索：适合衡量语义相似性
推荐系统：用户和物品向量的相似度计算

在Elasticsearch中的使用

{"mappings":{"properties":{"embedding":{"type":"dense_vector","dims":768,"index":true,"similarity":"cosine"}}}}

2. L2_Norm（欧氏距离）

基本原理

欧氏距离衡量两个向量在多维空间中的直线距离。值越小表示相似度越高。

计算公式

l2_norm(A, B) = ||A - B|| = √Σ(Ai - Bi)²

特点

关注距离：衡量向量在空间中的实际距离
长度敏感：考虑向量长度和方向
非负值：距离总是大于等于0

适用场景

图像搜索：适合空间分布明显的场景
地理数据：衡量地理位置的距离
归一化向量：当向量已经归一化时效果较好

在Elasticsearch中的使用

{"mappings":{"properties":{"embedding":{"type":"dense_vector","dims":768,"index":true,"similarity":"l2_norm"}}}}

3. Dot_Product（点积）

基本原理

点积衡量两个向量的"共线程度"，值越大表示相似度越高。

计算公式

dot_product(A, B) = Σ(Ai × Bi)

特点

关注共线性：值越大表示向量越相似
归一化依赖：对归一化向量效果最好
范围无限制：值可以是任意实数

适用场景

归一化向量：当向量已经归一化时，效果等同于余弦相似度
特征匹配：寻找具有相似特征的向量
性能优化：计算速度通常比余弦相似度快

在Elasticsearch中的使用

{"mappings":{"properties":{"embedding":{"type":"dense_vector","dims":768,"index":true,"similarity":"dot_product"}}}}

4. 算法选择策略

文本向量

优先选择：cosine（余弦相似度）
原因：文本向量的长度变化较大，余弦相似度对长度不敏感

归一化向量

选择：cosine 或 dot_product
说明：当向量已经归一化时，两者效果相似，dot_product计算更快

非归一化向量

选择：l2_norm（欧氏距离）
原因：欧氏距离适合处理非归一化的空间数据

不确定时

最安全选择：cosine（余弦相似度）
原因：对大多数场景都适用，特别是文本和语义搜索

5. 性能考虑

计算复杂度

算法	计算复杂度	特点
cosine	O(n)	需要计算范数
l2_norm	O(n)	需要平方和开方
dot_product	O(n)	最简单的计算

索引和搜索性能

dot_product：通常最快，适合大规模搜索
cosine：需要额外的范数计算，但更稳定
l2_norm：包含平方和开方操作，相对较慢

6. 实际应用示例

文本语义搜索

# 使用cosine相似度进行文本搜索query_vector=get_text_embedding("搜索查询")results=es.search(index="documents",knn={"field":"embedding","query_vector":query_vector,"k":10,"num_candidates":100})

图像相似度搜索

# 使用l2_norm进行图像搜索image_vector=get_image_embedding("图像路径")results=es.search(index="images",knn={"field":"embedding","query_vector":image_vector,"k":10,"space_type":"l2_norm"})