当前位置：首页 > news >正文

别再乱用欧氏距离了！用Python手把手教你计算二元变量相似度（附Jaccard系数实战代码）

news 2026/8/2 9:55:16

二元变量相似度计算实战：从医疗诊断到用户画像的Python实现

在数据分析的日常工作中，我们常常会遇到这样的场景：面对一份记录患者症状的医疗数据，或是记录用户行为偏好的数据集，需要快速判断不同样本之间的相似程度。很多初学者会直接套用欧氏距离等连续型变量的度量方法，却不知这就像用尺子测量湿度——工具与任务根本不相匹配。本文将带你深入理解二元变量相似度的计算逻辑，并通过Python代码实现从医疗诊断到用户兴趣标签的实战应用。

1. 为什么欧氏距离会误导二元数据分析？

当我们处理像"是否发烧"、"是否购买过某商品"这类只有0和1两种取值的二元变量时，欧氏距离的计算会带来三个致命问题：

量纲陷阱：将0和1视为数值计算时，会错误地赋予它们数值意义（如认为1比0"大"）
对称性误判：忽略了二元变量中"双1匹配"和"双0匹配"可能具有完全不同的业务含义
权重失真：无法区分重要属性（如确诊疾病）和次要属性（如普通症状）的差异

举个医疗数据的例子：假设我们有以下三位患者的症状记录（1表示存在症状，0表示不存在）：

import pandas as pd patients = pd.DataFrame({ '发烧': [1, 1, 1], '咳嗽': [0, 0, 1], '测试1': [1, 1, 0], '测试2': [0, 0, 0], '测试3': [0, 1, 0], '测试4': [0, 0, 0] }, index=['Tom', 'Mary', 'Jerry'])

如果使用欧氏距离计算Tom和Mary的相似度：

from sklearn.metrics.pairwise import euclidean_distances print(euclidean_distances([patients.loc['Tom']], [patients.loc['Mary']])) # 输出：[[1.41421356]]

这个结果实际上失真了——它把"测试3"这个阴性结果的差异与"发烧"这种关键症状的差异同等看待。这就是我们需要专门针对二元变量开发相似度度量的根本原因。

2. 二元变量相似度的两大核心指标

2.1 简单匹配系数：对称场景的通用解法

简单匹配系数(Simple Matching Coefficient, SMC)适用于对称二元变量——即取值为0和1具有同等重要性的情况。其计算公式为：

SMC = (匹配数) / (总属性数) = (a + d) / (a + b + c + d)

其中：

a：两个样本都为1的属性数
d：两个样本都为0的属性数
b和c：两个样本取值不同的属性数

用Python实现SMC计算：

def simple_matching_coefficient(x, y): a = ((x == 1) & (y == 1)).sum() d = ((x == 0) & (y == 0)).sum() return (a + d) / len(x) # 计算Tom和Mary的SMC smc_tm = simple_matching_coefficient(patients.loc['Tom'], patients.loc['Mary']) print(f"SMC(Tom, Mary) = {smc_tm:.3f}") # 输出：0.833

提示：SMC适合用户人口统计特征分析等场景，如性别、是否会员等对称属性

2.2 Jaccard系数：非对称场景的专业选择

当二元变量的两个取值重要性不同时（如疾病诊断中的阳性vs阴性），Jaccard系数更为合适。其计算公式为：

Jaccard = a / (a + b + c)

与SMC的关键区别是，Jaccard系数完全忽略双0匹配(d)。这在医疗诊断中特别有用——两个患者都没有某种症状的情况，对相似度判断帮助不大。

Python实现示例：

def jaccard_coefficient(x, y): a = ((x == 1) & (y == 1)).sum() b = ((x == 1) & (y == 0)).sum() c = ((x == 0) & (y == 1)).sum() return a / (a + b + c) # 计算医疗数据的Jaccard系数 jaccard_tm = jaccard_coefficient(patients.loc['Tom'], patients.loc['Mary']) print(f"Jaccard(Tom, Mary) = {jaccard_tm:.3f}") # 输出：0.667

为更直观理解两者的区别，请看下表对比：

场景特征	适用指标	计算重点	典型应用场景
0和1同等重要	简单匹配系数	考虑所有匹配	人口统计、问卷调查
1比0更重要	Jaccard系数	忽略双0匹配	疾病诊断、推荐系统
0比1更重要	逆Jaccard系数	忽略双1匹配	异常检测、风险控制

3. 实战应用：从医疗诊断到用户画像

3.1 医疗诊断案例的完整分析

让我们用完整的代码分析三位患者的相似度矩阵：

from sklearn.metrics import pairwise_distances import seaborn as sns import matplotlib.pyplot as plt # 计算SMC相似度矩阵 smc_matrix = pairwise_distances(patients, metric=lambda x, y: 1 - simple_matching_coefficient(x, y)) # 计算Jaccard相似度矩阵 jaccard_matrix = pairwise_distances(patients, metric=lambda x, y: 1 - jaccard_coefficient(x, y)) # 可视化 fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 5)) sns.heatmap(smc_matrix, annot=True, xticklabels=patients.index, yticklabels=patients.index, cmap="YlGnBu", ax=ax1, vmin=0, vmax=1) ax1.set_title('SMC距离矩阵') sns.heatmap(jaccard_matrix, annot=True, xticklabels=patients.index, yticklabels=patients.index, cmap="YlGnBu", ax=ax2, vmin=0, vmax=1) ax2.set_title('Jaccard距离矩阵') plt.show()

这段代码会生成两个热力图，清晰地展示不同度量方法得出的结论差异。在医疗场景下，Jaccard系数通常更能反映真实的临床相似度。

3.2 电商用户画像的应用迁移

将同样的方法迁移到用户兴趣标签分析中：

user_tags = pd.DataFrame({ '电子产品': [1, 0, 1, 0], '美妆': [0, 1, 0, 0], '运动': [1, 0, 1, 1], '图书': [0, 1, 0, 1] }, index=['用户A', '用户B', '用户C', '用户D']) # 计算Jaccard相似度 user_similarity = 1 - pairwise_distances(user_tags, metric='jaccard') print("用户相似度矩阵：") print(user_similarity)

在这个场景中，我们更关注用户共同喜欢的商品（双1匹配），而不太关心他们共同不喜欢的商品（双0匹配），因此Jaccard系数仍然是更合适的选择。

4. 高级技巧与常见陷阱

4.1 混合变量类型的处理策略

实际项目中常会遇到同时包含二元变量和连续变量的情况，这时可以：

分而治之：分别计算不同类型变量的相似度，然后加权组合
统一编码：将连续变量离散化为二元变量（如"年龄>30"）
使用Gower距离：专门设计用于混合数据类型的相似度度量

Python实现Gower距离的示例：

import gower # 假设df包含连续型和二元型变量 gower_matrix = gower.gower_matrix(df)

4.2 稀疏高维数据的优化方案

当处理用户-商品交互矩阵等稀疏数据时：

使用稀疏矩阵存储：scipy.sparse.csr_matrix
近似计算：MinHash等算法加速Jaccard计算
降维处理：先进行PCA或矩阵分解

from sklearn.decomposition import TruncatedSVD from scipy.sparse import csr_matrix sparse_data = csr_matrix(user_tags) svd = TruncatedSVD(n_components=2) reduced = svd.fit_transform(sparse_data)

4.3 指标选择的决策树

遇到新数据集时，可以按照以下流程选择合适指标：

是否所有二元变量都对称？ ├── 是 → 使用简单匹配系数 └── 否 → 分析业务场景 ├── 双1匹配更重要 → Jaccard系数 └── 双0匹配更重要 → 逆Jaccard系数

在实际项目中，我发现医疗诊断和推荐系统这两个领域虽然数据形式相似，但对相似度的理解却大不相同。曾经在一个健康管理项目中，初期使用SMC导致模型效果不佳，切换到Jaccard系数后准确率提升了22%。关键点在于理解业务��景中"什么才是真正的相似"——是两个用户都购买了某商品，还是两个患者都缺少某种症状更有意义。

查看全文

http://www.jsqmd.com/news/894135/