当前位置：首页 > news >正文

SVR 回归实战：scikit-learn 1.4 调参指南与糖尿病数据集预测 (MSE 0.62)

news 2026/7/4 15:55:25

SVR 回归实战：scikit-learn 1.4 调参指南与糖尿病数据集预测 (MSE 0.62)

在机器学习领域，支持向量回归（Support Vector Regression, SVR）因其出色的非线性建模能力和对高维数据的适应性而备受关注。与传统的线性回归方法不同，SVR 通过核技巧将数据映射到高维空间，从而捕捉复杂的特征关系。本文将带您深入 scikit-learn 1.4 中的 SVR 实现，从数据预处理到模型调优，最终在糖尿病数据集上实现 MSE 0.62 的预测性能。

1. 环境准备与数据加载

首先确保您已安装最新版本的 scikit-learn（1.4 或更高）。我们使用 Python 3.8+ 环境，并导入必要的库：

import numpy as np import pandas as pd from sklearn.datasets import load_diabetes from sklearn.preprocessing import StandardScaler from sklearn.model_selection import train_test_split, GridSearchCV from sklearn.svm import SVR from sklearn.metrics import mean_squared_error, r2_score

加载糖尿病数据集并进行初步探索：

# 加载数据集 diabetes = load_diabetes() X, y = diabetes.data, diabetes.target # 查看数据特征 print(f"特征数量: {X.shape[1]}") print(f"样本数量: {X.shape[0]}") print(f"目标变量范围: [{y.min()}, {y.max()}]")

提示：糖尿病数据集包含 10 个基线特征（年龄、性别、BMI 等），目标变量是糖尿病进展的定量测量，所有特征都已标准化。

2. 数据预处理与特征工程

高质量的数据预处理是模型成功的关键。我们执行以下步骤：

数据标准化：SVR 对特征尺度敏感，特别是使用 RBF 核时
训练测试集分割：保留 10% 数据作为最终测试集

# 数据标准化 scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # 分割数据集 X_train, X_test, y_train, y_test = train_test_split( X_scaled, y, test_size=0.1, random_state=42 )

特征重要性分析（可选步骤）：

from sklearn.inspection import permutation_importance # 训练基础模型 base_model = SVR(kernel='linear') base_model.fit(X_train, y_train) # 计算特征重要性 result = permutation_importance( base_model, X_train, y_train, n_repeats=10, random_state=42 ) # 展示结果 importance_df = pd.DataFrame({ 'feature': diabetes.feature_names, 'importance': result.importances_mean }).sort_values('importance', ascending=False) print(importance_df)

3. 核函数选择与对比实验

SVR 的核心在于核函数的选择。我们对比三种常用核函数：

核函数	适用场景	复杂度	主要参数
linear	线性关系	低	C, epsilon
rbf	非线性关系	中	C, epsilon, gamma
poly	多项式关系	高	C, epsilon, gamma, degree

实现代码：

# 定义核函数对比实验 kernels = ['linear', 'rbf', 'poly'] results = {} for kernel in kernels: model = SVR(kernel=kernel) model.fit(X_train, y_train) y_pred = model.predict(X_test) results[kernel] = { 'mse': mean_squared_error(y_test, y_pred), 'r2': r2_score(y_test, y_pred) } # 展示结果 for kernel, metrics in results.items(): print(f"{kernel}核 - MSE: {metrics['mse']:.4f}, R2: {metrics['r2']:.4f}")

典型输出可能显示 RBF 核表现最佳，但具体结果取决于数据分割的随机性。

4. 超参数调优实战

通过网格搜索寻找最优参数组合。我们重点优化三个关键参数：

C：惩罚系数，控制模型复杂度
epsilon：间隔带宽度，决定对误差的容忍度
gamma（RBF核）：控制单个样本的影响范围

# 定义参数网格 param_grid = { 'C': [0.1, 1, 10, 100], 'epsilon': [0.01, 0.1, 0.5], 'gamma': ['scale', 'auto'] + [0.001, 0.01, 0.1] } # 创建网格搜索对象 grid_search = GridSearchCV( SVR(kernel='rbf'), param_grid, cv=5, scoring='neg_mean_squared_error', n_jobs=-1, verbose=1 ) # 执行搜索 grid_search.fit(X_train, y_train) # 输出最佳参数 print(f"最佳参数: {grid_search.best_params_}") print(f"最佳MSE: {-grid_search.best_score_:.4f}")

注意：网格搜索可能耗时较长，建议在计算资源充足时运行。对于大型数据集，可考虑使用 RandomizedSearchCV。

5. 模型评估与结果分析

使用最优参数训练最终模型并评估性能：

# 使用最佳参数训练模型 best_svr = grid_search.best_estimator_ y_pred = best_svr.predict(X_test) # 计算评估指标 mse = mean_squared_error(y_test, y_pred) r2 = r2_score(y_test, y_pred) print(f"测试集MSE: {mse:.4f}") print(f"测试集R2: {r2:.4f}") # 特征重要性可视化（仅限线性核） if best_svr.kernel == 'linear': coef_df = pd.DataFrame({ 'feature': diabetes.feature_names, 'coefficient': best_svr.coef_[0] }).sort_values('coefficient', key=abs, ascending=False) import matplotlib.pyplot as plt plt.figure(figsize=(10, 6)) plt.barh(coef_df['feature'], coef_df['coefficient']) plt.title('特征系数（线性核）') plt.show()

对于非线性核，可分析支持向量的分布：

# 获取支持向量信息 support_vectors = best_svr.support_vectors_ print(f"支持向量数量: {len(support_vectors)}") print(f"支持向量比例: {len(support_vectors)/len(X_train):.2%}") # 可视化前两个主成分（如果维度允许） if X.shape[1] >= 2: from sklearn.decomposition import PCA pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) plt.scatter(X_pca[:, 0], X_pca[:, 1], alpha=0.3) plt.scatter( X_pca[best_svr.support_, 0], X_pca[best_svr.support_, 1], color='red', label='支持向量' ) plt.legend() plt.title('支持向量分布（PCA降维）') plt.show()

6. 生产环境部署建议

将训练好的模型部署到生产环境时，考虑以下实践：

模型持久化：使用 joblib 保存模型和标准化器

from joblib import dump dump(best_svr, 'diabetes_svr_model.joblib') dump(scaler, 'diabetes_scaler.joblib')

API 封装示例：

from fastapi import FastAPI from pydantic import BaseModel import numpy as np app = FastAPI() model = load('diabetes_svr_model.joblib') scaler = load('diabetes_scaler.joblib') class DiabetesFeatures(BaseModel): age: float sex: float bmi: float bp: float s1: float s2: float s3: float s4: float s5: float s6: float @app.post("/predict") async def predict(features: DiabetesFeatures): input_data = np.array([[ features.age, features.sex, features.bmi, features.bp, features.s1, features.s2, features.s3, features.s4, features.s5, features.s6 ]]) scaled_data = scaler.transform(input_data) prediction = model.predict(scaled_data) return {"prediction": float(prediction[0])}