当前位置：首页 > news >正文

kNN实战：用约会网站数据和手写数字识别，教你搞定数据预处理与模型评估

news 2026/4/28 21:17:39

kNN算法实战：从数据预处理到模型评估的完整指南

在机器学习领域，k最近邻(kNN)算法因其简单直观而广受欢迎。本文将带你深入理解kNN算法，并通过两个实际案例——约会网站配对和手写数字识别，展示如何从原始数据出发，经过完整的数据处理流程，最终构建并评估一个高效的kNN模型。

1. kNN算法核心原理

kNN算法全称为k-Nearest Neighbors，是一种基于实例的学习方法。它的核心思想可以用一句话概括：相似的数据点在特征空间中距离相近。具体来说，对于一个待分类的样本，算法会找到训练集中与之最接近的k个邻居，然后根据这k个邻居的类别进行投票，将得票最多的类别作为预测结果。

1.1 算法特点

无参数学习：kNN不需要显式的训练过程，模型直接存储所有训练数据
距离度量关键：常用的距离度量包括：
- 欧氏距离(L2)：$\sqrt{\sum_{i=1}^n (x_i-y_i)^2}$
- 曼哈顿距离(L1)：$\sum_{i=1}^n |x_i-y_i|$
- 闵可夫斯基距离(Lp)：$(\sum_{i=1}^n |x_i-y_i|^p)^{1/p}$

提示：在特征量纲差异较大时，欧氏距离容易受大数值特征主导，此时应先进行特征标准化

1.2 超参数k的选择

k值的选择对模型性能有显著影响：

k值大小	模型特点	适用场景
较小k值	模型复杂，对噪声敏感	数据干净，边界清晰
较大k值	模型简单，抗噪声能力强	数据噪声较多，边界模糊

# 使用交叉验证选择最优k值示例 from sklearn.model_selection import cross_val_score from sklearn.neighbors import KNeighborsClassifier k_range = range(1, 31) k_scores = [] for k in k_range: knn = KNeighborsClassifier(n_neighbors=k) scores = cross_val_score(knn, X, y, cv=10, scoring='accuracy') k_scores.append(scores.mean())

2. 数据预处理实战

2.1 约会网站数据案例

假设我们有一个约会网站的用户数据集，包含以下特征：

每年获得的飞行常客里程数
玩视频游戏所耗时间百分比
每周消费的冰淇淋公升数

数据标准化

不同特征的量纲差异极大，必须进行标准化处理：

from sklearn.preprocessing import StandardScaler scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train) X_test_scaled = scaler.transform(X_test)

3D可视化分析

import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D fig = plt.figure(figsize=(10, 8)) ax = fig.add_subplot(111, projection='3d') colors = ['red', 'green', 'blue'] labels = ['不喜欢', '一般', '极具魅力'] for i in range(3): ax.scatter(X_train_scaled[y_train==i+1, 0], X_train_scaled[y_train==i+1, 1], X_train_scaled[y_train==i+1, 2], c=colors[i], label=labels[i], s=20) ax.legend() plt.show()

2.2 手写数字识别案例

MNIST数据集中的手写数字是28x28像素的灰度图像，我们需要：

将图像数据展平为784维向量
进行归一化处理（像素值0-255缩放到0-1）
可视化部分样本检查数据质量

from sklearn.datasets import load_digits import numpy as np digits = load_digits() X = digits.data / 16.0 # 归一化到0-1范围 y = digits.target # 可视化前32个样本 plt.figure(figsize=(10, 5)) for i in range(32): plt.subplot(4, 8, i+1) plt.imshow(X[i].reshape(8, 8), cmap='gray') plt.title(f'Label: {y[i]}') plt.axis('off') plt.tight_layout()

3. 模型构建与调优

3.1 基础kNN模型实现

from sklearn.neighbors import KNeighborsClassifier from sklearn.model_selection import train_test_split # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 创建kNN分类器 knn = KNeighborsClassifier(n_neighbors=5) # 训练模型 knn.fit(X_train, y_train) # 预测测试集 y_pred = knn.predict(X_test)

3.2 距离权重改进

基础的kNN算法中，所有邻居的投票权重相同。我们可以改进为距离加权投票，使更近的邻居有更大影响力：

knn_weighted = KNeighborsClassifier( n_neighbors=5, weights='distance' # 使用距离倒数作为权重 )

3.3 参数网格搜索

使用GridSearchCV自动寻找最优参数组合：

from sklearn.model_selection import GridSearchCV param_grid = { 'n_neighbors': range(3, 15), 'weights': ['uniform', 'distance'], 'p': [1, 2] # 1:曼哈顿距离, 2:欧氏距离 } grid_search = GridSearchCV( KNeighborsClassifier(), param_grid, cv=5, scoring='accuracy', n_jobs=-1 ) grid_search.fit(X_train, y_train) print(f"最佳参数: {grid_search.best_params_}")

4. 模型评估与可视化

4.1 混淆矩阵分析

from sklearn.metrics import confusion_matrix import seaborn as sns cm = confusion_matrix(y_test, y_pred) plt.figure(figsize=(10, 8)) sns.heatmap(cm, annot=True, fmt='d', cmap='Blues') plt.xlabel('预测标签') plt.ylabel('真实标签') plt.show()

4.2 多维度评估指标

除了准确率，我们还需要关注：

精确率(Precision)：$\frac{TP}{TP+FP}$
召回率(Recall)：$\frac{TP}{TP+FN}$
F1分数：$2 \times \frac{Precision \times Recall}{Precision + Recall}$

from sklearn.metrics import classification_report print(classification_report(y_test, y_pred))

4.3 学习曲线分析

通过绘制学习曲线，我们可以判断模型是否受益于更多训练数据：

from sklearn.model_selection import learning_curve train_sizes, train_scores, test_scores = learning_curve( KNeighborsClassifier(n_neighbors=5), X, y, cv=5, n_jobs=-1, train_sizes=np.linspace(0.1, 1.0, 10) ) plt.figure(figsize=(10, 6)) plt.plot(train_sizes, np.mean(train_scores, axis=1), 'o-', label="训练得分") plt.plot(train_sizes, np.mean(test_scores, axis=1), 'o-', label="交叉验证得分") plt.legend() plt.xlabel("训练样本数") plt.ylabel("准确率") plt.title("kNN学习曲线") plt.grid()

5. 实际应用中的优化技巧

5.1 降维处理

对于高维数据（如手写数字的784维特征），可以考虑使用PCA降维：

from sklearn.decomposition import PCA pca = PCA(n_components=0.95) # 保留95%的方差 X_pca = pca.fit_transform(X) print(f"原始维度: {X.shape[1]}") print(f"降维后: {X_pca.shape[1]}")

5.2 近似最近邻(ANN)算法

当数据量很大时，精确的kNN计算会非常耗时。可以考虑使用近似最近邻算法：

Ball Tree：适用于高维数据
KD Tree：适用于低维数据
LSH(Locality-Sensitive Hashing)：适用于海量数据

# 使用Ball Tree加速 knn_ball = KNeighborsClassifier( n_neighbors=5, algorithm='ball_tree' # 使用Ball Tree数据结构 )

5.3 类别不平衡处理

当数据类别分布不均衡时，可以采用：

加权kNN：给少数类样本更大的投票权重
过采样少数类或欠采样多数类
使用特定的距离度量，如马氏距离

# 类别加权kNN class_weights = compute_class_weight('balanced', classes=np.unique(y), y=y) sample_weights = np.array([class_weights[label] for label in y_train]) knn_weighted = KNeighborsClassifier(n_neighbors=5) knn_weighted.fit(X_train, y_train, sample_weight=sample_weights)

6. 案例深度解析

6.1 约会网站配对结果分析

经过完整流程后，我们获得了约95%的准确率。进一步分析发现：

飞行里程数是最具区分度的特征
游戏时间和冰淇淋消费相关性较高，可以考虑特征选择
在"一般"和"极具魅力"的边界区域容易混淆

6.2 手写数字识别难点

手写数字识别中的常见挑战：

数字'4'和'9'的混淆
不同书写风格导致的类内差异
数字倾斜和旋转带来的变化

通过数据增强（旋转、平移、缩放）可以进一步提升模型鲁棒性。

7. 工程实践建议

在实际项目中部署kNN模型时，建议：

数据预处理管道化：将标准化、降维等步骤封装为Pipeline
模型持久化：使用joblib保存训练好的模型和scaler
性能监控：记录模型在生产环境中的表现，定期重新评估
增量学习：对于新增数据，可以采用近似方法避免全量重新训练

from sklearn.pipeline import Pipeline from sklearn.externals import joblib # 创建完整管道 pipeline = Pipeline([ ('scaler', StandardScaler()), ('pca', PCA(n_components=0.95)), ('knn', KNeighborsClassifier(n_neighbors=5)) ]) # 训练并保存 pipeline.fit(X_train, y_train) joblib.dump(pipeline, 'knn_pipeline.pkl')

kNN算法虽然简单，但在许多实际问题中表现优异。通过本文介绍的数据预处理、模型调优和评估方法，你应该能够在自己的项目中有效应用这一算法。记住，好的特征工程往往比复杂的模型更能提升性能。在实际应用中，我通常会先尝试kNN这样的简单模型作为基线，再考虑是否需要更复杂的算法。

查看全文

http://www.jsqmd.com/news/715739/