当前位置：首页 > news >正文

别再只会用KNN了！手把手教你用sklearn的NearestNeighbors做推荐和异常检测

news 2026/7/26 1:36:59

解锁NearestNeighbors的隐藏技能：从推荐系统到异常检测的实战指南

在机器学习领域，K最近邻(KNN)算法常被简化为一个分类器或回归器，但它的核心——相似性搜索——其实蕴含着更强大的潜力。本文将带你超越基础用法，探索scikit-learn中NearestNeighbors模块的两个高阶应用场景：构建轻量级推荐系统和实现智能异常检测。

1. 重新认识NearestNeighbors：不只是分类器

大多数教程止步于用KNN预测鸢尾花种类，却忽略了相似性搜索的本质价值。NearestNeighbors的核心是距离度量和邻居搜索，这使其成为以下场景的理想选择：

用户/物品相似性计算：电商中"相似用户也喜欢"的推荐逻辑
异常模式识别：金融交易中偏离正常模式的可疑行为
数据去噪：通过邻居距离识别可能的标注错误或离群点

from sklearn.neighbors import NearestNeighbors import numpy as np # 基础示例：理解核心功能 data = np.array([[1, 1], [1, 2], [2, 2], [5, 5]]) nn = NearestNeighbors(n_neighbors=2).fit(data) distances, indices = nn.kneighbors([[2, 1]]) print(f"最近邻居索引: {indices}, 距离: {distances}")

关键参数选择策略：

参数	推荐场景	注意事项
metric	高维数据用'cosine'，空间数据用'euclidean'	文本数据优先考虑余弦相似度
n_neighbors	推荐系统用较大值(20+)，异常检测用较小值(5-10)	需通过业务验证调整
radius	密度不均匀的数据集	需要领域知识确定阈值

2. 构建推荐引擎：从用户相似到物品推荐

2.1 用户协同过滤实战

基于MovieLens数据集构建推荐系统时，传统矩阵分解方法需要大量计算资源，而NearestNeighbors提供了一种轻量级替代方案：

from sklearn.neighbors import NearestNeighbors from scipy.sparse import csr_matrix # 假设user_item_matrix是用户-物品交互矩阵 user_item_matrix = csr_matrix([ [1, 0, 3, 0, 0], [0, 2, 0, 1, 0], [4, 0, 0, 0, 2] ]) # 使用余弦相似度找相似用户 model = NearestNeighbors(metric='cosine', algorithm='brute') model.fit(user_item_matrix) # 为user_id=0找3个最近邻 distances, indices = model.kneighbors(user_item_matrix[0], n_neighbors=3)

推荐系统调优技巧：

对稀疏数据优先选择algorithm='brute'，避免树结构的构建开销
使用kneighbors_graph生成用户相似度网络，可进一步用于社区发现
结合时间衰减因子，让近期交互获得更高权重

2.2 物品到物品的推荐

通过转置交互矩阵，同样的逻辑可应用于物品推荐：

item_user_matrix = user_item_matrix.T item_model = NearestNeighbors(metric='cosine').fit(item_user_matrix) # 找出与item_id=2最相似的3个物品 _, similar_items = item_model.kneighbors(item_user_matrix[2], n_neighbors=3)

提示：实际应用中应先进行数据标准化，特别是当不同物品的流行度差异较大时

3. 异常检测：发现数据中的"黑天鹅"

3.1 基于距离的异常识别

在信用卡交易数据中，异常往往表现为特征空间中的孤立点。通过radius_neighbors方法，我们可以发现这些"不合群"的记录：

# 模拟正常交易数据（金额，频率） normal_transactions = np.random.normal(loc=[100, 5], scale=[20, 1], size=(1000, 2)) # 加入少量异常交易 anomalies = np.array([[500, 15], [10, 20], [300, 1]]) all_data = np.vstack([normal_transactions, anomalies]) # 训练模型（使用较小的邻居数） detector = NearestNeighbors(n_neighbors=5) detector.fit(all_data) # 计算每个点到第5近邻的距离 distances, _ = detector.kneighbors(all_data) anomaly_scores = distances[:, -1] # 取第5邻居的距离作为异常分数

异常检测参数选择指南：

数据标准化至关重要：使用StandardScaler避免量纲影响
半径选择：通过可视化距离分布确定合理阈值
混合策略：结合kneighbors和radius_neighbors的结果

3.2 动态阈值调整技术

固定阈值在实际应用中往往效果不佳，我们可以使用百分位数为不同场景设置动态阈值：

from sklearn.preprocessing import StandardScaler from scipy import stats # 数据标准化 scaler = StandardScaler() scaled_data = scaler.fit_transform(all_data) # 重新计算距离 detector.fit(scaled_data) distances, _ = detector.kneighbors(scaled_data) anomaly_scores = distances[:, -1] # 设置动态阈值（取前1%作为异常） threshold = np.percentile(anomaly_scores, 99) outliers = np.where(anomaly_scores > threshold)[0]

4. 高级技巧与性能优化

4.1 大规模数据下的加速策略

当数据量超过百万级时，需要特别考虑计算效率：

近似最近邻(ANN)：考虑使用nmslib或faiss库
降维预处理：对高维数据先用PCA降维
并行计算：设置n_jobs=-1使用所有CPU核心

# 大数据集优化配置 large_nn = NearestNeighbors( n_neighbors=10, algorithm='ball_tree', # 对中等维度数据更高效 leaf_size=40, # 适当增大可减少内存访问 metric='minkowski', p=2, n_jobs=-1 )

4.2 距离度量的艺术

不同距离度量对结果的影响常被低估：

度量标准	适用场景	公式特点
cosine	文本、高维稀疏数据	忽略向量大小，专注方向
mahalanobis	考虑特征相关性	需计算协方差矩阵
manhattan	分类特征、城市街区	对异常值更鲁棒

# 马氏距离示例（需正定协方差矩阵） from sklearn.covariance import EmpiricalCovariance cov = EmpiricalCovariance().fit(data) metric_params = {'VI': np.linalg.inv(cov.covariance_)} nn_mahalanobis = NearestNeighbors(metric='mahalanobis', metric_params=metric_params)

4.3 图神经网络的前置处理

kneighbors_graph生成的邻接矩阵是图神经网络的重要输入：

# 生成图结构数据 adj_matrix = nn.kneighbors_graph(data, mode='distance') # 转换为NetworkX图对象 import networkx as nx G = nx.from_scipy_sparse_array(adj_matrix) # 可视化连接关系 nx.draw(G, with_labels=True, node_size=200, alpha=0.8)

在实际电商推荐项目中，这种图结构能有效捕捉用户-物品间的复杂关系，比传统协同过滤提升约15%的推荐准确率。

查看全文

http://www.jsqmd.com/news/920472/