当前位置：首页 > news >正文

2026腾讯广告算法大赛的反思

news 2026/7/25 21:59:49

先上Github链接：https://github.com/zhuizhuzheming/taac_2026

对于我来说，这是一次比较冒险的挑战，也是本科期间的最后一场竞赛。今年的赛题的主要内容是“序列建模×特征交互”，对于参考的模型而言，我发现它们主要是通过构造拼接的方式，变成query，之后进行深层次交互，可以说，这种model能够深层交互的主要原因是Transformer的Scaling Law。但是我也在想，如果强行mix的话，最终模态与模态之间的交互可能会出现任务对不齐的情况，从而产生在训练时非常大的抖动。所以，我设计了如下面介绍的model。

一、背景与痛点：为什么不用标准 Transformer？

在点击率（CTR）预估领域，处理长序列用户行为一直是个难题。虽然 Transformer 在 NLP 和 CV 领域大杀四方，但在工业级 CTR 场景中，它面临着三个结构性缺陷：

特征异质性（Heterogeneity）：用户ID、物品属性、上下文特征存在于不同的统计流形上，标准 Attention 假设共享欧氏度量，会导致相似性计算失真。
排列不变性（Permutation Invariance）的副作用：CTR 特征的顺序（Who -> What -> When）蕴含强语义，单纯的 Mixer 会破坏这种因果结构。
算力瓶颈：工业界动辄上千的 Token 数量，使得 O(M2d)的复杂度难以承受。

基于此，taac_2026团队提出了HeteroFormer，其核心思想非常激进：序列推导出的语义不应只是被动注入的压缩向量，而应主动参数化异构特征的交互。

二、核心创新：动态原型流形（Dynamic Prototype Manifold）

这是 HeteroFormer 的灵魂所在。它不再将用户行为序列压缩成一个固定长度的向量，而是通过以下机制进行处理：

1. 序列编码与流形映射

编码器：使用带连续时间离散化的SSM Cell（状态空间模型）来捕捉长序列依赖。
几何变换：通过Cayley 旋转（Cayley Rotation），根据用户特征动态调整原型空间的几何结构。
最优传输：引入Langevin-Sinkhorn 算法，将序列映射到一组可学习的语义锚点（Semantic Anchors）上，得到稀疏且可解释的分配权重 π。

2. Proto-Conditioned 交互

得到的原型分配结果 π并不是用来直接做分类的，而是作为“软偏置”去影响交叉特征 Attention 和 FFN 的门控（FiLM），真正实现了“序列语义指导特征交互”。

三、双版本实现：兼顾科研与工业落地

该仓库的一大亮点是提供了两套代码，分别对应不同的应用场景，这对工程化非常有参考价值。

特性	科研版 (HeteroFormer_model/)	工业稳定版 (PCVRHeteroFormer/)
适用场景	复现论文、消融实验	单卡训练、线上部署
序列编码器	SSM (连续时间)	RoPE Transformer
原型层	Cayley + Sinkhorn (O(K2))	Soft Theme Routing (轻量级)
训练策略	DSO + MetaAligner (解耦优化)	联合损失优化
校准模块	Diffusion + Energy	Softplus MLP Head

个人感悟：在工业版中，虽然为了稳定性牺牲了部分复杂的 OT（最优传输）计算，但验证了核心思想的有效性——Validation AUC 依然能从 0.78 单调提升至 0.83。这证明了“序列参数化交互”这一范式本身的价值。

四、关键技术细节解析

1. 解耦语义优化（DSO）

训练多目标模型（CTR + 生成式语义）很容易导致梯度冲突。HeteroFormer 引入了MetaAligner，这是一个过拟合感知控制器，能根据训练-验证的 AUC Gap 动态调整辅助损失的权重 λaux，防止模型在后期出现 NaN 或崩溃。据仓库日志显示，该方案在 2500 个训练步中实现了Zero NaN Recoveries。