当前位置：首页 > news >正文

从沐神的‘动手学深度学习’到Kaggle提交：一个数据科学新人的完整复盘与避坑指南

news 2026/6/3 2:12:21

从零到Kaggle：深度学习新手的房价预测实战全记录

1. 启程：当理论遇见实战

第一次打开《动手学深度学习》课程时，我被李沐老师优雅的代码演示所震撼——那些看似复杂的神经网络，在他手中往往只需十几行代码就能完成核心功能。但当真正尝试将课程知识应用到Kaggle房价预测比赛时，我才意识到从理论到实践的鸿沟有多深。

这个项目教会我的第一课是：优秀的教程代码和实际工程之间存在巨大差异。课程中的代码为了教学清晰往往做了极致简化，而真实数据却充满各种"脏"特征和边缘情况。记得第一次运行自己编写的MLP模型时，遇到的不是预期的训练曲线，而是一连串的维度错误和梯度爆炸警告。

新手常见误区：直接复制教学代码到实际项目，忽略数据规模、特征维度和计算资源的差异

2. 环境配置：那些教程不会告诉你的细节

2.1 工具链选择

经过多次尝试后，我确定了最适合新手的工具组合：

开发环境：Google Colab Pro（免配置GPU资源）
版本控制：GitHub + DVC（管理数据和模型版本）
实验跟踪：Weights & Biases（可视化训练过程）

# 检查GPU可用性 import torch print(f"CUDA available: {torch.cuda.is_available()}") print(f"GPU型号: {torch.cuda.get_device_name(0)}")

2.2 依赖管理陷阱

课程示例很少强调依赖版本问题，但实际中这却是新手最容易踩的坑。例如：

Pandas 2.0+对空值处理逻辑的变化
PyTorch特定版本与CUDA驱动兼容性
scikit-learn与category_encoders的API冲突

解决方案：

# 推荐使用conda创建独立环境 conda create -n kaggle_housing python=3.9 conda install pytorch=1.13.1 torchvision -c pytorch pip install wandb category_encoders==2.6.0

3. 数据战场：从原始CSV到特征矩阵

3.1 数据清洗实战

原始数据包含79,065条记录和超过80个特征，但大部分需要预处理：

特征类型	处理方式	注意事项
高基数类别特征	目标编码	避免维度爆炸
数值型离群值	对数变换	保留零值处理
时空特征	周期性编码	考虑地理聚类

# 典型数值特征标准化流程 numeric_cols = train_data.select_dtypes(include=['float64']).columns train_data[numeric_cols] = train_data[numeric_cols].apply( lambda x: (x - x.mean()) / x.std() )

3.2 特征工程艺术

经过多次迭代，最终保留的特征包括：

核心数值特征：
- 房屋面积对数
- 税务评估值
- 上次交易价格
关键类别特征：
- 房屋类型（Type）
- 卧室数量（Bedrooms）
- 学区等级（School District）

特征选择黄金法则：先用简单模型验证特征重要性，再逐步增加复杂度

4. 模型构建：从Baseline到改进

4.1 基础MLP架构

初始网络结构包含三个全连接层：

class HousingMLP(nn.Module): def __init__(self, input_dim): super().__init__() self.layers = nn.Sequential( nn.Linear(input_dim, 256), nn.ReLU(), nn.Linear(256, 64), nn.ReLU(), nn.Linear(64, 1) ) def forward(self, x): return self.layers(x)

4.2 训练技巧突破

通过实验发现的几个关键改进点：

学习率调度：采用余弦退火策略
损失函数：MSELoss + 对数变换
正则化：Dropout层 + L2惩罚

# 改进后的训练循环 optimizer = torch.optim.AdamW( model.parameters(), lr=0.001, weight_decay=0.01 ) scheduler = torch.optim.lr_scheduler.CosineAnnealingLR( optimizer, T_max=100 )