当前位置：首页 > news >正文

GTE-Chinese-Large基础教程：余弦相似度与欧氏距离在业务中的选型

news 2026/3/26 17:21:45

GTE-Chinese-Large基础教程：余弦相似度与欧氏距离在业务中的选型

1. 引言：为什么需要关注相似度算法？

在日常业务中，我们经常遇到这样的需求：用户输入一段文字，我们需要从海量内容中找到最相关的结果。比如电商平台的商品搜索、内容平台的推荐系统、客服系统的问答匹配等。这时候，文本相似度计算就成了核心技术。

GTE-Chinese-Large作为阿里达摩院推出的中文专用文本向量模型，能够将文本转换为高质量的1024维向量表示。但有了向量之后，如何衡量两个向量的相似度？这就是余弦相似度和欧氏距离要解决的问题。

本文将带你从实际业务角度出发，深入理解这两种相似度算法的区别，并学会在不同场景下做出正确的选择。

2. GTE-Chinese-Large模型快速入门

2.1 模型核心特点

GTE-Chinese-Large是专门为中文场景优化的文本嵌入模型，具有以下特点：

向量维度：1024维，表达能力强大
模型大小：621MB，部署相对轻量
文本长度：支持最长512个token
加速支持：支持GPU加速，推理速度快

2.2 快速部署与使用

使用CSDN星图镜像，可以快速部署GTE-Chinese-Large模型：

# 启动服务 /opt/gte-zh-large/start.sh # 访问Web界面 # 将端口替换为7860即可访问

等待1-2分钟模型加载完成后，就可以通过Web界面或API进行文本向量化和相似度计算了。

3. 理解余弦相似度与欧氏距离

3.1 余弦相似度：关注方向一致性

余弦相似度衡量的是两个向量在方向上的相似程度，而不关心它们的绝对大小。其计算公式为：

cos(θ) = (A·B) / (||A|| * ||B||)

其中A·B表示向量的点积，||A||和||B||表示向量的模长。

简单理解：就像比较两个文档的主题相似性，不管文章长短，只关心内容主题是否一致。

3.2 欧氏距离：关注绝对位置差异

欧氏距离衡量的是两个向量在空间中的绝对距离，计算公式为：

d = √(Σ(A_i - B_i)²)

简单理解：就像测量两个地点之间的直线距离，考虑的是绝对位置的差异。

3.3 直观对比：用生活例子理解

假设我们要比较两个人的兴趣爱好：

余弦相似度：关心兴趣爱好的类型是否相似（都喜欢运动、音乐、读书）
欧氏距离：关心兴趣爱好的投入程度（每周运动5小时 vs 2小时）

4. 业务场景中的算法选型指南

4.1 选择余弦相似度的场景

适合场景：

文档检索和语义搜索
内容推荐系统
问答匹配和FAQ检索
文本分类和聚类

为什么适合：这些场景更关注内容语义的相似性，而不是文本长度或词频的绝对差异。

实际案例：

# 文档检索示例 query = "人工智能的发展现状" document1 = "AI技术最新进展报告" # 短文档 document2 = "关于人工智能从概念提出到当前发展状况的全面分析报告" # 长文档 # 使用余弦相似度，两者都会得到较高分数 # 因为语义主题相似，不受长度影响

4.2 选择欧氏距离的场景

适合场景：

异常检测和离群点分析
基于绝对数值的匹配
需要考虑幅度差异的场景

为什么适合：这些场景需要关注数值的绝对差异，而不仅仅是方向一致性。

实际案例：

# 用户行为分析示例 user1_behavior = [5, 3, 2] # 每周5次购物、3次浏览、2次评论 user2_behavior = [1, 1, 1] # 每周1次购物、1次浏览、1次评论 # 使用欧氏距离，能明显区分活跃用户和非活跃用户

4.3 混合使用的策略

在实际业务中，往往需要结合使用两种方法：

def hybrid_similarity(vec1, vec2, alpha=0.7): """ 混合相似度计算 alpha: 余弦相似度的权重 """ cos_sim = cosine_similarity(vec1, vec2) euclidean_dist = euclidean_distance(vec1, vec2) # 将欧氏距离转换为相似度（距离越小越相似） max_dist = np.max(euclidean_dist) # 最大可能距离 euclidean_sim = 1 - (euclidean_dist / max_dist) return alpha * cos_sim + (1 - alpha) * euclidean_sim

5. 实战：基于GTE的相似度计算

5.1 环境准备与模型加载

首先确保GTE-Chinese-Large模型已经部署并运行：

from transformers import AutoTokenizer, AutoModel import torch import numpy as np from sklearn.metrics.pairwise import cosine_similarity # 加载模型（模型路径根据实际部署调整） model_path = "/opt/gte-zh-large/model" tokenizer = AutoTokenizer.from_pretrained(model_path) model = AutoModel.from_pretrained(model_path) # 移动到GPU加速（如果可用） device = torch.device("cuda" if torch.cuda.is_available() else "cpu") model = model.to(device)

5.2 文本向量化函数

def get_embedding(text): """获取文本的向量表示""" inputs = tokenizer( text, return_tensors="pt", padding=True, truncation=True, max_length=512 ) inputs = {k: v.to(device) for k, v in inputs.items()} with torch.no_grad(): outputs = model(**inputs) # 使用[CLS] token的表示作为整个文本的嵌入 return outputs.last_hidden_state[:, 0].cpu().numpy() # 示例使用 text = "人工智能的发展与应用" embedding = get_embedding(text) print(f"向量维度: {embedding.shape}") # 输出: (1, 1024)

5.3 相似度计算实现

def calculate_similarities(text1, text2): """计算两种相似度""" # 获取向量 vec1 = get_embedding(text1) vec2 = get_embedding(text2) # 余弦相似度 cos_sim = cosine_similarity(vec1, vec2)[0][0] # 欧氏距离（转换为相似度分数） euclidean_dist = np.linalg.norm(vec1 - vec2) max_possible_dist = np.linalg.norm(np.ones(1024) - (-np.ones(1024))) euclidean_sim = 1 - (euclidean_dist / max_possible_dist) return { "cosine_similarity": float(cos_sim), "euclidean_similarity": float(euclidean_sim), "recommendation": "cosine" if cos_sim > 0.6 else "euclidean" } # 测试示例 text_a = "机器学习算法" text_b = "深度学习模型" result = calculate_similarities(text_a, text_b) print(f"余弦相似度: {result['cosine_similarity']:.4f}") print(f"欧氏相似度: {result['euclidean_similarity']:.4f}") print(f"推荐算法: {result['recommendation']}")

6. 业务案例深度解析

6.1 电商搜索场景

需求：用户搜索"轻薄笔记本电脑"，需要返回相关商品。

分析：

商品标题长度差异大："轻薄本" vs "2023新款超薄便携笔记本电脑"
更关注语义相似性，而不是标题长度
选择余弦相似度

实现代码：

def search_products(query, product_list, top_k=5): """商品语义搜索""" query_vec = get_embedding(query) product_vectors = [get_embedding(product) for product in product_list] # 计算余弦相似度 similarities = [] for i, product_vec in enumerate(product_vectors): sim = cosine_similarity(query_vec, product_vec)[0][0] similarities.append((product_list[i], sim)) # 按相似度排序 similarities.sort(key=lambda x: x[1], reverse=True) return similarities[:top_k] # 使用示例 products = ["游戏本", "超薄笔记本电脑", "商务办公本", "二合一平板电脑"] results = search_products("轻薄笔记本电脑", products) for product, score in results: print(f"{product}: {score:.4f}")

6.2 内容去重场景

需求：检测新闻文章中是否包含重复内容。

分析：

需要同时考虑内容相似性和重复程度
短时间大量发布的相似文章可能是垃圾内容
混合使用两种算法

实现代码：

def detect_duplicate_content(article1, article2, threshold=0.8): """内容去重检测""" vec1 = get_embedding(article1) vec2 = get_embedding(article2) cos_sim = cosine_similarity(vec1, vec2)[0][0] euclidean_dist = np.linalg.norm(vec1 - vec2) # 综合判断 if cos_sim > threshold and euclidean_dist < 1.0: return True, cos_sim, euclidean_dist else: return False, cos_sim, euclidean_dist # 使用示例 article_a = "今天股市大涨，科技股领涨..." article_b = "股市今日表现强劲，科技板块涨幅居前..." is_duplicate, cos_score, dist = detect_duplicate_content(article_a, article_b) print(f"是否重复: {is_duplicate}, 余弦相似度: {cos_score:.4f}, 欧氏距离: {dist:.4f}")

7. 性能优化与最佳实践

7.1 批量处理优化

当需要处理大量文本时，使用批量处理可以显著提升性能：

def get_embeddings_batch(texts, batch_size=32): """批量获取文本嵌入""" all_embeddings = [] for i in range(0, len(texts), batch_size): batch_texts = texts[i:i+batch_size] inputs = tokenizer( batch_texts, return_tensors="pt", padding=True, truncation=True, max_length=512 ) inputs = {k: v.to(device) for k, v in inputs.items()} with torch.no_grad(): outputs = model(**inputs) batch_embeddings = outputs.last_hidden_state[:, 0].cpu().numpy() all_embeddings.extend(batch_embeddings) return np.array(all_embeddings)

7.2 相似度计算优化

对于大规模相似度计算，使用矩阵运算提升效率：

def batch_cosine_similarity(queries, candidates): """批量计算余弦相似度""" query_embeddings = get_embeddings_batch(queries) candidate_embeddings = get_embeddings_batch(candidates) # 归一化向量 query_norm = query_embeddings / np.linalg.norm(query_embeddings, axis=1, keepdims=True) candidate_norm = candidate_embeddings / np.linalg.norm(candidate_embeddings, axis=1, keepdims=True) # 矩阵乘法计算相似度 similarity_matrix = np.dot(query_norm, candidate_norm.T) return similarity_matrix

7.3 缓存策略

对于重复查询，实现简单的缓存机制：

from functools import lru_cache @lru_cache(maxsize=1000) def cached_get_embedding(text): """带缓存的文本嵌入获取""" return get_embedding(text) @lru_cache(maxsize=1000) def cached_cosine_similarity(text1, text2): """带缓存的相似度计算""" vec1 = cached_get_embedding(text1) vec2 = cached_get_embedding(text2) return cosine_similarity(vec1, vec2)[0][0]

8. 总结与建议

8.1 核心要点回顾

通过本文的学习，你应该掌握：

余弦相似度更适合语义相关的场景，不受文本长度影响
欧氏距离更适合需要关注绝对数值差异的场景
GTE-Chinese-Large提供了高质量的中文文本向量表示
在实际业务中需要根据具体需求选择合适的相似度算法

8.2 选型决策指南

业务场景	推荐算法	原因
语义搜索	余弦相似度	关注语义相关性而非文本长度
内容推荐	余弦相似度	基于内容主题相似性
异常检测	欧氏距离	需要检测数值异常
用户聚类	欧氏距离	基于用户行为的绝对差异
混合场景	加权组合	同时考虑语义和数值差异