当前位置：首页 > news >正文

多任务学习进阶：从MMoE到PLE的模型演进与实战解析

news 2026/4/5 23:41:26

1. 多任务学习基础与核心挑战

多任务学习（Multi-Task Learning, MTL）是机器学习领域的一个重要分支，它让单个模型同时学习多个相关任务。想象一下，你正在教一个学生同时学习数学和物理。如果这两个学科有共同的基础概念（比如微积分在物理中的应用），那么同时学习可能会比分开学习效率更高——这就是多任务学习的核心思想。

在实际应用中，推荐系统就是典型的多任务学习场景。以短视频平台为例，我们需要同时预测用户是否会点赞、评论、转发或完整观看视频。传统做法是为每个任务单独训练模型，但这会带来三个明显问题：

资源消耗大：每个任务都需要独立的模型存储和计算资源
忽略任务关联：点赞和转发行为可能存在内在联系，单独建模无法利用这种关联
数据稀疏问题：某些行为（如打赏）样本稀少，单独建模效果差

最早的解决方案是Shared-Bottom模型，它采用底层参数共享的方式：

# 简化版Shared-Bottom结构 shared_layer = Dense(256, activation='relu')(input) task1_output = Dense(1, activation='sigmoid')(shared_layer) task2_output = Dense(1, activation='sigmoid')(shared_layer)

但这种简单共享存在致命缺陷——当任务差异较大时，模型会陷入"左右为难"的困境。比如短视频场景中，观看时长预测（回归任务）和点赞预测（分类任务）的优化方向可能完全相反，导致共享层参数更新时产生梯度冲突。

2. MMoE：多门混合专家模型突破

2018年谷歌提出的MMoE（Multi-gate Mixture-of-Experts）模型解决了Shared-Bottom的核心痛点。它的创新点在于：

专家网络：用多个小型网络（Experts）替代单一共享层
门控机制：每个任务有自己的"选择器"（Gate），动态组合专家

用厨房来类比：专家就像各种厨具（炒锅、蒸锅、烤箱），门控就是厨师根据菜品（任务）选择最合适的工具组合。以下是关键实现：

# MMoE核心组件示例 class Expert(layers.Layer): def __init__(self, units): super().__init__() self.dense = layers.Dense(units, activation='relu') def call(self, inputs): return self.dense(inputs) class Gate(layers.Layer): def __init__(self, num_experts): super().__init__() self.dense = layers.Dense(num_experts, activation='softmax') def call(self, inputs): return self.dense(inputs)

实测发现，当两个任务的标签相关性从0.9降到0.1时，Shared-Bottom的AUC下降超过15%，而MMoE仅下降3%。这是因为：

高相关任务：门控会分配相似权重，共享大部分专家
低相关任务：门控会选择不同专家组合，避免干扰

但MMoE仍有局限——所有专家仍然是共享资源。就像多个厨师共用厨具，当需求冲突时还是会出现"抢设备"的情况，这就是著名的"跷跷板效应"：一个任务指标提升可能导致另一个下降。

3. PLE：渐进分层抽取的革命性设计

腾讯2020年提出的PLE（Progressive Layered Extraction）模型通过两项关键创新解决了MMoE的问题：

3.1 专属专家网络

PLE为每个任务引入专属专家（Specific Experts），同时保留共享专家（Shared Experts）。这就像给每个厨师配专属工具，公共区域放共享设备。具体结构包含：

CGC层（Customized Gate Control）：第一层特征抽取
多级抽取：通过级联CGC层实现渐进式特征精炼

# PLE的关键差异实现 class CGC(layers.Layer): def __init__(self, tasks, shared_experts=3, specific_experts=2): super().__init__() self.shared_experts = [Expert(256) for _ in range(shared_experts)] self.task_experts = { task: [Expert(256) for _ in range(specific_experts)] for task in tasks } self.gates = {task: Gate(shared_experts + specific_experts) for task in tasks}

3.2 分层信息提炼

PLE的层级设计让信息逐层精炼：

底层处理基础特征（如用户基础画像）
中层融合行为特征（如点击序列）
高层组合交叉特征（如用户-物品交互）

在腾讯视频的实测中，PLE相比MMoE带来显著提升：

观看时长预测：MAE降低6.2%
点赞预测：AUC提升1.8%
分享预测：AUC提升2.4%

这种提升主要来自两方面优势：

冲突缓解：专属专家减少任务间干扰
特征复用：共享专家捕获通用模式

4. 实战：推荐系统中的模型选型指南

选择多任务学习架构时，建议按以下流程决策：

4.1 场景评估清单

评估维度	Shared-Bottom	MMoE	PLE
任务相关性高	✓	✓✓	✓✓
任务差异大	×	✓	✓✓
资源受限	✓	×	×
长尾任务存在	×	✓	✓✓
实时性要求高	✓	×	××

4.2 实现注意事项

专家数量：通常3-8个，可通过验证集调整
门控初始化：建议用Xavier初始化避免早期偏好
损失加权：不同任务损失可能需要动态加权

# 动态损失加权示例 def weighted_loss(y_true, y_pred): task1_loss = tf.keras.losses.binary_crossentropy(y_true[0], y_pred[0]) task2_loss = tf.keras.losses.mse(y_true[1], y_pred[1]) return 0.7*task1_loss + 0.3*task2_loss