当前位置：首页 > news >正文

从有偏到无偏：IPS加权矩阵分解在非随机缺失数据下的实战指南

news 2026/6/30 16:16:26

1. 当推荐系统遇上数据偏差：一个真实存在的问题

想象你经营一家电商平台，每天有数百万用户浏览商品，但真正留下评分的用户不到1%。更棘手的是，用户评分行为并非随机——畅销商品更容易获得评分，冷门商品即使质量优秀也鲜少被评价。这就是典型的**非随机缺失数据（MNAR）**问题，它会导致推荐系统产生严重偏差。

我去年接手过一个真实案例：某家居电商的推荐算法总是给用户推爆款商品，导致长尾商品曝光率持续下降。用传统矩阵分解（MF）训练出的模型，在测试集上MSE低至0.8，但上线后用户满意度反而下降了15%。后来发现，这是因为模型过度拟合了那些容易被观测到（即容易被评分）的商品特征。

这种现象在学术上称为选择偏差（Selection Bias）。就像只根据图书馆里被借阅次数最多的书籍来推荐新书，却忽略了那些可能更优质但未被发现的著作。传统MF的损失函数：

loss = np.mean((observed_ratings - predicted_ratings)**2)

本质上是在优化被观测数据的预测精度，却对未观测数据视而不见。

2. IPS加权：给数据加上"公平秤"

2.1 逆向倾向评分的核心思想

逆向倾向评分（IPS）的妙处在于它给每个样本加了一个"权重砝码"。举个生活化的例子：假设你要调查全市居民收入水平，但高收入人群更愿意接受调查。IPS的做法是——给每个受访者的数据乘以"1/接受调查概率"，这样就能抵消响应偏差。

数学上，IPS加权的损失函数长这样：

ips_loss = np.mean((observed_ratings - predicted_ratings)**2 / propensity_scores)

其中propensity_scores就是每个评分被观测到的概率p(o=1)。这个除法的精妙之处在于：对于容易被观测的数据（p值大），我们降低其权重；对于难得被观测的数据（p值小），我们提高其权重。

2.2 两种主流的倾向得分估计方法

方法一：朴素贝叶斯法
适合有小部分随机采样数据的情况。比如你有1%的用户评分是通过弹窗随机邀请获得的（MCAR数据），可以这样计算：

# 计算条件概率 p_rating_given_observed = count_observed_ratings / total_observed p_observed = total_observed / total_possible p_rating = count_ratings_in_MCAR / total_MCAR propensity = p_rating_given_observed * p_observed / p_rating

方法二：逻辑回归法
更通用的解决方案，也是我实际项目中的首选。我们可以用用户特征、商品特征和交互特征来预测观测概率：

from sklearn.linear_model import LogisticRegression # 特征包括：用户活跃度、商品热度、价格段匹配度等 X = np.hstack([user_features, item_features, interaction_features]) model = LogisticRegression().fit(X, observed_labels) propensity_scores = model.predict_proba(X)[:, 1]

实测发现，加入用户历史行为序列的LSTM特征提取器，能使倾向得分预测准确率提升7-12%。

3. IPS-MF联合建模实战

3.1 模型架构设计

将IPS权重融入矩阵分解，我们需要改造传统MF的损失函数。以下是PyTorch实现的核心代码：

class IPSMF(nn.Module): def __init__(self, n_users, n_items, latent_dim): super().__init__() self.user_factors = nn.Embedding(n_users, latent_dim) self.item_factors = nn.Embedding(n_items, latent_dim) self.user_biases = nn.Embedding(n_users, 1) self.item_biases = nn.Embedding(n_items, 1) def forward(self, user, item, propensity): pred = (self.user_factors(user) * self.item_factors(item)).sum(1) pred += self.user_biases(user).squeeze() pred += self.item_biases(item).squeeze() loss = ((pred - rating)**2 / propensity).mean() return loss

关键改进点：

每个样本的MSE损失除以对应的倾向得分
保留原有的L2正则化项防止过拟合
采用自适应学习率优化器（如AdamW）应对权重差异

3.2 训练技巧与调参经验

在电商平台的实际应用中，我总结了几个有效经验：

倾向得分截断：对极小的p值（如<0.01）设置下限，避免个别样本权重爆炸
```
propensity = np.clip(propensity, 0.01, 1.0)
```
渐进式训练：先预训练普通MF模型，再用其输出作为IPS-MF的初始化
动态加权：每轮epoch后重新计算倾向得分，形成EM式的迭代优化
评估指标：除了常规的RMSE，更要关注：
- 长尾商品的推荐覆盖率
- 不同用户群体的预测偏差方差
- 在线A/B测试的转化率