当前位置：首页 > news >正文

从零到一：基于PyTorch的DeepFM模型在Criteo数据集上的实战调优指南

news 2026/7/22 2:27:27

1. 为什么选择DeepFM处理Criteo数据集？

在广告点击率预测领域，特征交叉的重要性不言而喻。想象一下，当用户看到一则运动鞋广告时，他的点击行为不仅取决于"运动鞋"这个特征本身，还可能与"用户性别"、"浏览时段"、"设备类型"等特征产生复杂的交叉影响。传统逻辑回归只能捕捉线性关系，而FM（因子分解机）虽然能处理二阶特征交叉，但对于更高阶的特征组合就无能为力了。

DeepFM的创新之处在于将FM和DNN完美结合。FM部分负责捕捉低阶特征交互（比如"运动鞋"和"男性用户"的组合），DNN部分则自动学习高阶特征组合（比如"运动鞋+男性+晚间+移动端"这样的复杂模式）。我在实际项目中发现，这种组合结构比单独使用FM或DNN的效果平均能提升3-5%的AUC。

Criteo数据集作为CTR预测的基准测试集，包含4500万条展示广告记录，其中13个数值特征和26个类别特征都经过脱敏处理。这个数据集的特点是：

数值特征（如I1-I13）需要归一化处理
类别特征（如C1-C26）存在大量长尾分布
正负样本比例严重不均衡（约3:97）

提示：初次实验建议使用采样后的100万条数据版本，全量数据训练可能需要8小时以上（即使使用GPU）

2. 环境搭建与数据准备

2.1 快速搭建PyTorch环境

推荐使用conda创建隔离的Python环境，避免包版本冲突：

conda create -n deepfm python=3.8 conda activate deepfm pip install torch==1.12.1+cu113 -f https://download.pytorch.org/whl/torch_stable.html pip install pandas scikit-learn tqdm

这里选择PyTorch 1.12而非最新版本，是因为在实际测试中我发现1.12在Embedding层的处理效率上比后续版本更稳定。如果使用GPU加速，记得根据CUDA版本选择对应的PyTorch安装包。

2.2 数据预处理实战技巧

下载数据集后，我通常会先进行探索性分析：

import pandas as pd data = pd.read_csv('train.txt', sep='\t', header=None, names=['label'] + [f'I{i}' for i in range(1,14)] + [f'C{i}' for i in range(1,27)]) print(f"正样本比例: {data['label'].mean():.2%}") print("数值特征缺失情况:") print(data[[f'I{i}' for i in range(1,14)]].isnull().sum()) print("类别特征取值数量:") print(data[[f'C{i}' for i in range(1,27)]].nunique())

处理缺失值时有个小技巧：对于数值特征不要简单用0填充，可以先用-999标记缺失，再统一做归一化：

# 处理缺失值 data[sparse_features] = data[sparse_features].fillna('-1') data[dense_features] = data[dense_features].fillna(-999) # 归一化时排除缺失标记 mms = MinMaxScaler(feature_range=(0, 1)) valid_mask = data[dense_features] != -999 data.loc[valid_mask, dense_features] = mms.fit_transform(data.loc[valid_mask, dense_features])

3. DeepFM模型架构深度解析

3.1 FM组件实现细节

FM部分的核心是Embedding层的设计。这里有个容易踩的坑：不同类别特征的取值数量差异可能非常大（从几十到上万），直接统一设置embedding_dim会导致内存浪费或信息不足。我的解决方案是：

def create_embedding_matrix(feat_sizes, embedding_dim, sparse=False): embedding_dict = nn.ModuleDict() for feat, size in feat_sizes.items(): if size > 1000: # 高频特征 dim = min(embedding_dim*2, 64) elif size > 100: dim = embedding_dim else: # 低频特征 dim = max(embedding_dim//2, 4) embedding_dict[feat] = nn.Embedding(size, dim, sparse=sparse) return embedding_dict

二阶特征交叉的实现也有讲究，原始论文中的公式可以直接转化为矩阵运算：

# 优化后的FM二阶项计算 square_of_sum = torch.sum(fm_input, dim=1).pow(2) sum_of_square = torch.sum(fm_input.pow(2), dim=1) cross_term = 0.5 * (square_of_sum - sum_of_square).sum(dim=1, keepdim=True)

3.2 DNN组件的调优策略

DNN部分最容易出现梯度消失或过拟合问题。经过多次实验，我总结出几个有效策略：

分层学习率：底层Embedding层使用较小学习率(1e-4)，上层DNN使用较大学习率(1e-3)

渐进式Dropout：随着网络加深逐渐增加Dropout率

self.dropouts = nn.ModuleList([ nn.Dropout(min(0.1 + 0.1*i, 0.5)) for i in range(len(hidden_units)-1) ])

残差连接：在深层网络中加入跨层连接

for i in range(len(self.linears)): fc = self.linears[i](deep_input) fc = self.relus[i](fc) fc = self.dropouts[i](fc) if i > 0 and hidden_units[i] == hidden_units[i-1]: fc = fc + deep_input # 残差连接 deep_input = fc

4. 训练技巧与性能优化

4.1 批处理与内存管理

Criteo全量数据集可能无法一次性加载到内存。我的解决方案是：

class CriteoDataset(Dataset): def __init__(self, file_path, chunk_size=100000): self.file = pd.read_csv(file_path, sep='\t', chunksize=chunk_size, header=None) self.chunks = [chunk for chunk in self.file] def __len__(self): return sum(len(chunk) for chunk in self.chunks) def __getitem__(self, idx): chunk_idx = idx // len(self.chunks[0]) item_idx = idx % len(self.chunks[0]) return self.chunks[chunk_idx].iloc[item_idx]

4.2 学习率调度与早停

推荐使用余弦退火配合热重启：

optimizer = torch.optim.Adam(model.parameters(), lr=1e-3) scheduler = torch.optim.lr_scheduler.CosineAnnealingWarmRestarts( optimizer, T_0=10, T_mult=2, eta_min=1e-5) early_stopper = EarlyStopper(patience=3, min_delta=0.001)

4.3 评估指标解读

除了常规的AUC和LogLoss，建议监控以下指标：

校准率：预测CTR与实际CTR的比率
分组AUC：按用户分组计算的AUC，检查模型对不同群体的公平性

def calibration(y_true, y_pred, bins=10): bin_edges = np.linspace(0, 1, bins+1) bin_indices = np.digitize(y_pred, bin_edges[:-1]) bin_ctr = [y_true[bin_indices==i].mean() for i in range(1, bins+1)] pred_ctr = [y_pred[bin_indices==i].mean() for i in range(1, bins+1)] return bin_ctr, pred_ctr

5. 超参数调优实战

通过网格搜索结合贝叶斯优化，我发现几个关键规律：

Embedding维度：8-16维足够，更大的维度收益不明显
DNN结构：400-800-400的三层结构性价比最高
Dropout率：0.3-0.5效果最好，超过0.7会导致欠拟合

param_grid = { 'embedding_dim': [4, 8, 16], 'dnn_hidden_units': [ [256, 128], [400, 400], [800, 400, 200] ], 'dropout': [0.3, 0.5, 0.7], 'batch_size': [4096, 8192] }

在Tesla V100上，完整调优过程大约需要2天时间。如果时间有限，可以优先调整embedding_dim和第一层DNN大小，这两个参数对效果影响最大。

查看全文

http://www.jsqmd.com/news/559233/