当前位置：首页 > news >正文

如何通过辅助排序损失优化推荐模型在稀疏反馈场景下的性能（KDD‘2024）

news 2026/6/12 14:51:05

1. 稀疏反馈场景下的推荐模型挑战

在推荐系统领域，我们经常会遇到一个头疼的问题：用户的正反馈（比如点击、购买）实在太少了。想象一下，你在运营一个电商平台，每天有上百万的商品展示，但用户平均点击率可能还不到2%。这就好比在沙漠里找绿洲，大部分区域都是干旱的荒漠（负样本），只有零星几处水源（正样本）。

这种情况下，传统的二分类交叉熵损失（BCE loss）会遇到一个致命问题：负样本梯度消失。简单来说，模型在训练时，对于那些没被点击的商品（负样本），学到的信息量非常有限。就像老师给全班同学讲课，但只关注那几个举手发言的学生，其他沉默的同学就被忽略了。

具体来说，当CTR=2%时：

正样本梯度：1-p̂ ≈ 0.98（信号强烈）
负样本梯度：p̂ ≈ 0.02（几乎消失）

这种现象会导致两个严重后果：

模型对负样本的学习不充分
整体收敛速度变慢，效果打折扣

2. 辅助排序损失的工作原理

2.1 排序损失的三大门派

解决上述问题的一个有效方法，就是引入辅助排序损失。这就像给模型请了个"私教"，专门训练它理解物品之间的相对关系。排序损失主要分三种类型：

Pointwise：单兵作战
- 单独评估每个item的预测值
- 典型代表就是BCE loss

Pairwise：两两对比

让正样本得分高于负样本

常见如RankNet的损失函数：

def pairwise_loss(pos_score, neg_score): return -torch.log(torch.sigmoid(pos_score - neg_score))

Listwise：团队作战
- 直接优化整个列表的排序
- 比如ListNet的损失函数：
```
def listwise_loss(scores, labels): return torch.nn.CrossEntropyLoss()(scores, labels)
```

2.2 组合损失的协同效应

在实际应用中，我们发现把BCE loss和排序loss结合起来效果最好。这就好比：

BCE是"基础课"：保证预测准确度
排序loss是"专业课"：提升排序质量

Twitter提出的Combined-Pair方法就是个典型例子：

总损失 = α * BCE_loss + (1-α) * Pairwise_loss

这个组合带来了三个好处：

负样本获得更大的梯度
模型收敛更快
最终排序效果更好

3. 梯度视角的技术解析

3.1 BCE损失的梯度缺陷

让我们深入看看BCE loss的梯度问题。对于一个负样本：

梯度 = p̂ (预估点击率)

当CTR=2%时，梯度只有0.02。这就好比用滴灌浇灌沙漠，效果微乎其微。

而正样本的梯度：

梯度 = 1 - p̂ ≈ 0.98

明显强得多，但这种不平衡会导致模型偏置。

3.2 组合损失的梯度增强

加入排序loss后，负样本的梯度变为：

新梯度 = p̂ + σ(z⁻ - z⁺)

其中第二项通常远大于第一项。实验数据显示，在CTR=3.3%时：

纯BCE的负样本梯度norm：≈0.03
Combined-Pair的梯度norm：≈0.15

提升了整整5倍！这就把滴灌变成了喷灌，大大改善了学习效率。

4. 实战中的关键策略

4.1 稀疏度与效果关系

通过调整正样本权重β_pos，我们发现一个有趣现象：

β_pos	CTR	AUC提升幅度
0.8	20.5%	+0.020%
0.1	3.3%	+0.095%

结论很明显：数据越稀疏，组合损失的优势越大。当CTR<5%时，效果提升尤为显著。

4.2 损失权重的黄金比例

组合权重α的选择很关键。经过大量实验，我们总结出：

初始建议值：α=0.7
稀疏度越高，α可以越小
极端稀疏时(CTR<1%)，α可降至0.5

一个实用的调整策略：

def get_alpha(ctr): base = 0.7 if ctr < 0.01: return base - 0.2 elif ctr < 0.05: return base - 0.1 else: return base

4.3 排序损失的选择

不同的排序loss各有特点：

类型	计算成本	效果	适用场景
Pairwise	中等	优	大多数推荐场景
Listwise	较高	极优	小规模精排
Hinge loss	低	良	快速迭代场景

对于大多数工业级推荐系统，我推荐先用Pairwise试水，稳定后再尝试Listwise。

5. 进阶优化方案

5.1 Combined-Contrastive方法

受对比学习启发，我们可以加入对比损失：

contrastive_loss = -log(exp(z_i·z_p/τ) / ∑exp(z_i·z_k/τ))

其中：

z_i: 当前样本embedding
z_p: 同label样本embedding
z_k: 所有其他样本embedding

这种方法在CTR<1%时，相比纯BCE能提升AUC达0.12%。

5.2 负采样策略

合理的负采样可以缓解梯度消失：

保留所有正样本
对负样本随机采样10%-20%
对采样样本的loss乘以补偿权重

注意采样率不宜过低，否则会损失信息。实验表明10%-30%的采样率效果最佳。

6. 工程实现要点

6.1 TensorFlow实现示例

def combined_loss(labels, logits, alpha=0.7): # BCE loss bce_loss = tf.nn.sigmoid_cross_entropy_with_logits(labels, logits) # Pairwise loss pos_mask = tf.cast(labels > 0, tf.float32) neg_mask = 1 - pos_mask pos_scores = tf.reduce_sum(logits * pos_mask) / tf.reduce_sum(pos_mask) neg_scores = tf.reduce_sum(logits * neg_mask) / tf.reduce_sum(neg_mask) pair_loss = -tf.math.log_sigmoid(pos_scores - neg_scores) return alpha * bce_loss + (1-alpha) * pair_loss