当前位置：首页 > news >正文

文本相似度计算指南：用余弦距离和欧式距离搞定NLP任务（附Python代码）

news 2026/3/26 22:40:06

文本相似度计算实战：从原理到Python实现

在自然语言处理领域，文本相似度计算是一项基础而关键的任务。无论是构建智能客服系统、实现文档去重，还是开发推荐算法，都离不开对文本相似性的准确度量。本文将深入探讨两种最常用的距离度量方法——余弦距离和欧式距离，并通过Python代码展示它们在实际NLP任务中的应用差异。

1. 文本相似度计算的核心概念

文本相似度计算本质上是通过数学方法量化两段文本之间的相似程度。在计算机看来，文本需要先转化为数值表示才能进行计算，这个过程称为文本向量化。常见的向量化方法包括：

词频统计：统计每个词在文本中出现的次数
TF-IDF：考虑词频和逆文档频率
词嵌入：如Word2Vec、GloVe等深度学习模型
BERT等预训练模型：生成上下文相关的文本表示

# 简单的词频统计示例 from collections import Counter text1 = "这只皮靴号码大了 那只号码合适" text2 = "这只皮靴号码不小 那只更合适" def word_frequency(text): return Counter(text.split()) freq1 = word_frequency(text1) freq2 = word_frequency(text2) print(f"文本1词频: {freq1}") print(f"文本2词频: {freq2}")

提示：在实际应用中，通常需要先进行分词、去除停用词等预处理步骤，以提高相似度计算的准确性。

2. 欧式距离的原理与应用

欧式距离(Euclidean Distance)是最直观的距离度量方法，源自我们熟悉的两点间直线距离公式。在n维空间中，两个向量x和y之间的欧式距离定义为：

$$ d(x,y) = \sqrt{\sum_{i=1}^n (x_i - y_i)^2} $$

欧式距离的特点：

对数值的绝对大小敏感
各维度权重相同
受量纲影响大

import numpy as np def euclidean_distance(vec1, vec2): return np.sqrt(np.sum((np.array(vec1) - np.array(vec2))**2)) # 示例：计算两个简单文本向量的欧式距离 vector1 = [1, 1, 2, 1, 1, 1, 0, 0, 0] # 文本1的词频向量 vector2 = [1, 1, 1, 0, 1, 1, 1, 1, 1] # 文本2的词频向量 print(f"欧式距离: {euclidean_distance(vector1, vector2):.2f}")

2.1 标准化欧式距离

当不同维度的量纲差异较大时，原始欧式距离会过分强调数值大的维度。标准化欧式距离通过将各维度缩放到相同尺度来解决这个问题：

$$ d_{std}(x,y) = \sqrt{\sum_{i=1}^n \left(\frac{x_i - y_i}{s_i}\right)^2} $$

其中$s_i$是第i个维度的标准差。

from sklearn.preprocessing import StandardScaler def standardized_euclidean_distance(vec1, vec2): vectors = np.array([vec1, vec2]) scaler = StandardScaler() vectors_std = scaler.fit_transform(vectors) return euclidean_distance(vectors_std[0], vectors_std[1]) print(f"标准化欧式距离: {standardized_euclidean_distance(vector1, vector2):.2f}")

3. 余弦距离的原理与应用

余弦距离(Cosine Distance)通过计算两个向量夹角的余弦值来衡量它们的相似度：

$$ \text{cosine_similarity}(x,y) = \frac{x \cdot y}{|x| |y|} = \frac{\sum_{i=1}^n x_i y_i}{\sqrt{\sum_{i=1}^n x_i^2} \sqrt{\sum_{i=1}^n y_i^2}} $$

余弦距离通常转化为相似度分数，取值范围为[-1,1]，1表示完全相同，-1表示完全相反。

余弦距离的特点：

只考虑向量方向，忽略大小
对绝对数值不敏感
适合高维稀疏数据

def cosine_similarity(vec1, vec2): vec1, vec2 = np.array(vec1), np.array(vec2) dot_product = np.dot(vec1, vec2) norm_product = np.linalg.norm(vec1) * np.linalg.norm(vec2) return dot_product / norm_product print(f"余弦相似度: {cosine_similarity(vector1, vector2):.2f}")

4. 距离度量的对比与选择

度量方法	优点	缺点	适用场景
欧式距离	直观易懂，计算简单	受量纲影响大，对异常值敏感	低维密集数据，各维度尺度相近
标准化欧式距离	消除量纲影响	假设各维度独立	各维度尺度差异大的数据
余弦距离	不受向量长度影响，适合高维数据	忽略向量大小信息	文本数据，推荐系统，高维稀疏数据

注意：在实际应用中，马氏距离(Mahalanobis Distance)也是一种重要的度量方法，它考虑了特征间的相关性，但计算复杂度较高，需要可靠的协方差矩阵估计。

5. 完整NLP相似度计算流程

下面展示一个完整的文本相似度计算流程，包括预处理、向量化和相似度计算：

import jieba from sklearn.feature_extraction.text import TfidfVectorizer # 1. 文本预处理 def preprocess(text): # 分词并去除停用词（简单示例，实际需要更完善的停用词表） words = jieba.cut(text) stopwords = {"的", "了", "在", "是", "我", "有", "和", "就", "不", "人"} return " ".join([word for word in words if word not in stopwords]) # 2. 构建TF-IDF向量 texts = [ "这只皮靴号码大了 那只号码合适", "这只皮靴号码不小 那只更合适", "这个手机屏幕很大 拍照效果很好", "这部手机显示屏很大 摄像功能出色" ] processed_texts = [preprocess(text) for text in texts] vectorizer = TfidfVectorizer() tfidf_matrix = vectorizer.fit_transform(processed_texts) # 3. 计算相似度矩阵 from sklearn.metrics.pairwise import cosine_similarity similarity_matrix = cosine_similarity(tfidf_matrix) print("文本相似度矩阵:") print(similarity_matrix)

流程优化建议：

完善分词和停用词处理
尝试不同的文本表示方法（Word2Vec、BERT等）
对于长文档，考虑段落或句子级别的相似度计算
根据具体任务调整相似度阈值

6. 实战案例：新闻标题去重

让我们通过一个实际案例来展示文本相似度计算的应用。假设我们有一组新闻标题，需要识别并去除内容相似的重复标题。

import pandas as pd # 示例新闻标题 news_titles = [ "苹果发布新款iPhone 15 Pro Max", "苹果推出iPhone 15 Pro Max智能手机", "特斯拉宣布全球降价促销", "特斯拉在中国市场下调售价", "微软公布最新季度财报", "微软发布第三季度财务报告" ] # 构建相似度矩阵 processed_titles = [preprocess(title) for title in news_titles] title_vectors = vectorizer.transform(processed_titles) title_similarity = cosine_similarity(title_vectors) # 设置相似度阈值 SIMILARITY_THRESHOLD = 0.8 # 识别相似标题 seen_indices = set() unique_titles = [] for i in range(len(news_titles)): if i not in seen_indices: unique_titles.append(news_titles[i]) # 查找相似标题 similar_indices = [j for j, sim in enumerate(title_similarity[i]) if sim > SIMILARITY_THRESHOLD and j != i] for idx in similar_indices: seen_indices.add(idx) print("\n去重后的新闻标题:") for title in unique_titles: print(f"- {title}")

在实际项目中，我们还可以：