当前位置：首页 > news >正文

别再只用内积和哈达玛积了！手把手教你用SENET和双线性交互层（FiBiNet）提升CTR预估效果

news 2026/6/18 17:04:00

突破传统特征交叉：SENET与双线性交互在CTR预估中的实战应用

当你在电商平台浏览商品时，系统能在毫秒间预测你点击某个广告的概率——这背后是点击率(CTR)预估模型的精密计算。传统的内积和哈达玛积方法已难以满足现代推荐系统对特征交互建模的精细需求。本文将带你深入两种革命性技术：动态特征加权的SENET机制和精细特征交叉的双线性交互层，它们正在重塑CTR预估的技术格局。

1. 传统特征交叉方法的局限性

十年前诞生的因子分解机(FM)使用内积进行特征交叉，开启了自动特征组合的新纪元。随后发展的深度神经网络模型普遍采用哈达玛积(元素相乘)作为特征交互方式。这两种方法虽然简单高效，但在实际业务场景中逐渐暴露出三大瓶颈：

等权重假设缺陷：传统方法对所有特征交互赋予相同重要性，而实际业务中"用户年龄×商品价格"的交叉意义可能远大于"用户性别×商品颜色"
交互粒度粗糙：内积和哈达玛积缺乏可学习的交互参数，难以捕捉特征间复杂的非线性关系
特征重要性固化：静态的嵌入表示无法根据具体上下文动态调整特征重要性

# 传统特征交叉方式代码示例 import torch # 内积交叉 def inner_product(v_i, v_j): return torch.sum(v_i * v_j, dim=1) # 向量点积 # 哈达玛积交叉 def hadamard_product(v_i, v_j): return v_i * v_j # 元素相乘

下表对比了不同特征交互方式的表现力差异：

交互类型	参数量	表达能力	计算复杂度	适用场景
内积	无额外参数	线性关系	O(k)	FM等浅层模型
哈达玛积	无额外参数	非线性较弱	O(k)	NFM等深层模型
双线性交互	可调节参数量	高度非线性	O(k²)	精细特征交叉

2. SENET：动态特征重要性学习

计算机视觉领域的SENET(Squeeze-and-Excitation Network)机制为CTR预估带来了全新思路。其核心思想是通过动态权重分配，让模型自动聚焦于当前场景下最重要的特征字段。

2.1 SENET的三阶段实现

SENET模块通过三个精妙设计的步骤完成特征重要性学习：

Squeeze(压缩)：
- 对每个特征字段的嵌入向量进行全局平均池化
- 将m×k的嵌入矩阵压缩为m×1的重要性统计向量
Excitation(激发)：
- 通过两层全连接网络学习特征权重
- 第一层FC降维(通常降维比r=3)
- 第二层FC恢复原始维度
Reweight(加权)：
- 将学习到的权重与原始嵌入逐元素相乘
- 输出加权后的新特征表示

class SENETLayer(nn.Module): def __init__(self, field_size, reduction_ratio=3): super().__init__() reduced_size = max(1, field_size // reduction_ratio) self.excitation = nn.Sequential( nn.Linear(field_size, reduced_size), nn.ReLU(), nn.Linear(reduced_size, field_size), nn.Sigmoid() ) def forward(self, embeddings): # embeddings形状: (batch_size, field_size, embed_dim) z = torch.mean(embeddings, dim=2) # Squeeze a = self.excitation(z) # Excitation return embeddings * a.unsqueeze(2) # Reweight

2.2 业务场景中的SENET价值

在某电商平台的实战应用中，SENET模块带来了显著效果提升：

用户画像特征：在工作日早高峰时段，职业特征的权重自动提升；周末则兴趣爱好特征权重增大
商品特征：促销期间价格敏感度上升，价格相关特征获得更高权重
上下文特征：移动端场景下，图片质量特征的权重显著高于PC端

提示：SENET的降维比r是需要重点调优的超参数。实践中发现，r=3在大多数场景表现良好，但高维稀疏特征可能需要更小的r值(如2)，而稠密特征可尝试更大的r值(如4-6)

3. 双线性交互：精细特征交叉新范式

双线性交互层(Bilinear Interaction)通过引入可学习的参数矩阵，突破了传统特征交叉的表达能力限制。其数学形式为：

$$ P_{ij} = v_i^T W v_j $$

其中W为可学习的参数矩阵，根据不同实现方式可分为三种类型：

3.1 三种双线性交互类型对比

Field-all类型：
- 所有特征共享同一个参数矩阵W
- 参数量：k×k
- 适合特征间关系相对均匀的场景
Field-each类型：
- 每个特征字段有独立的参数矩阵W_i
- 参数量：m×k×k
- 适合特征差异明显的业务
Field-interaction类型：
- 每对特征交互有独立的参数矩阵W_ij
- 参数量：m(m-1)/2 ×k×k
- 表达能力最强但参数量大

class BilinearInteraction(nn.Module): def __init__(self, field_size, embed_dim, bilinear_type='field_interaction'): super().__init__() self.bilinear_type = bilinear_type if bilinear_type == 'field_all': self.W = nn.Parameter(torch.randn(embed_dim, embed_dim)) elif bilinear_type == 'field_each': self.W = nn.Parameter(torch.randn(field_size, embed_dim, embed_dim)) else: # field_interaction self.W = nn.Parameter(torch.randn(field_size*(field_size-1)//2, embed_dim, embed_dim)) def forward(self, embeddings): if self.bilinear_type == 'field_all': p = [torch.matmul(v_i, torch.matmul(self.W, v_j)) for i, v_i in enumerate(embeddings) for j, v_j in enumerate(embeddings) if j > i] # 其他类型实现类似 return torch.stack(p, dim=1)

3.2 双线性交互的工程优化

在实际部署中，我们总结出以下优化经验：

参数初始化：采用Xavier正态分布初始化双线性矩阵，避免训练初期梯度爆炸
正则化策略：对Field-interaction类型添加L2正则(λ=1e-5)，防止过拟合
计算加速：使用爱因斯坦求和约定(einsum)优化矩阵运算
类型选择：
- 特征字段少(<20)时优先尝试Field-interaction
- 中等规模(20-50)推荐Field-each
- 大规模特征(>50)考虑Field-all结合降维

4. FiBiNet架构设计与实战调优

FiBiNet(Feature Importance and Bilinear feature Interaction Network)创新性地将SENET与双线性交互结合，形成了完整的CTR预估解决方案。

4.1 模型架构详解

FiBiNet的完整数据处理流程：

输入层：
- 稀疏特征通过嵌入层转换为稠密向量
- 连续特征直接拼接或分桶后嵌入
SENET层：
- 动态学习各特征字段的重要性权重
- 输出加权后的特征表示
双线性交互层：
- 对原始嵌入和SENET嵌入分别进行双线性交叉
- 生成精细化的二阶特征交互
组合层：
- 拼接不同来源的交互特征
- 通过求和池化降维
深度网络：
- 多层全连接网络学习高阶特征交互
- 最终sigmoid输出点击概率

class FiBiNet(nn.Module): def __init__(self, field_size, embed_dim, mlp_dims, dropout=0.5): super().__init__() self.senet = SENETLayer(field_size) self.bilinear = BilinearInteraction(field_size, embed_dim) self.mlp = MLP(field_size*(field_size-1)*2, mlp_dims, dropout) def forward(self, x): embeddings = self.embedding(x) senet_emb = self.senet(embeddings) p = self.bilinear(embeddings) # 原始嵌入交互 q = self.bilinear(senet_emb) # SENET嵌入交互 combined = torch.cat([ torch.sum(p, dim=2), torch.sum(q, dim=2) ], dim=1) return self.mlp(combined)

4.2 超参数调优指南

基于多个业务场景的AB测试，我们总结出以下调优经验：

超参数	推荐范围	影响分析	调优策略
嵌入维度	16-64	维度低导致欠拟合，高则增加计算量	从32开始，按16的倍数调整
SENET降维比r	2-6	控制特征重要性学习的复杂度	稀疏特征用较小r，稠密特征可增大
双线性类型	根据特征量选择	平衡表达能力和计算成本	小规模选interaction，大规模选all
MLP层数	3-5	影响高阶特征学习能力	从3层开始，每层神经元递减
dropout率	0.3-0.7	防止过拟合	数据量大时取小值，反之增大