当前位置: 首页 > news >正文

2026腾讯广告算法大赛的反思

先上Github链接:https://github.com/zhuizhuzheming/taac_2026

对于我来说,这是一次比较冒险的挑战,也是本科期间的最后一场竞赛。今年的赛题的主要内容是“序列建模×特征交互”,对于参考的模型而言,我发现它们主要是通过构造拼接的方式,变成query,之后进行深层次交互,可以说,这种model能够深层交互的主要原因是Transformer的Scaling Law。但是我也在想,如果强行mix的话,最终模态与模态之间的交互可能会出现任务对不齐的情况,从而产生在训练时非常大的抖动。所以,我设计了如下面介绍的model。

一、背景与痛点:为什么不用标准 Transformer?

在点击率(CTR)预估领域,处理长序列用户行为一直是个难题。虽然 Transformer 在 NLP 和 CV 领域大杀四方,但在工业级 CTR 场景中,它面临着三个结构性缺陷:

  1. 特征异质性(Heterogeneity):用户ID、物品属性、上下文特征存在于不同的统计流形上,标准 Attention 假设共享欧氏度量,会导致相似性计算失真。

  2. 排列不变性(Permutation Invariance)的副作用:CTR 特征的顺序(Who -> What -> When)蕴含强语义,单纯的 Mixer 会破坏这种因果结构。

  3. 算力瓶颈:工业界动辄上千的 Token 数量,使得 O(M2d)的复杂度难以承受。

基于此,taac_2026团队提出了HeteroFormer,其核心思想非常激进:序列推导出的语义不应只是被动注入的压缩向量,而应主动参数化异构特征的交互。

二、核心创新:动态原型流形(Dynamic Prototype Manifold)

这是 HeteroFormer 的灵魂所在。它不再将用户行为序列压缩成一个固定长度的向量,而是通过以下机制进行处理:

1. 序列编码与流形映射

  • 编码器:使用带连续时间离散化的SSM Cell(状态空间模型)来捕捉长序列依赖。

  • 几何变换:通过Cayley 旋转(Cayley Rotation),根据用户特征动态调整原型空间的几何结构。

  • 最优传输:引入Langevin-Sinkhorn​ 算法,将序列映射到一组可学习的语义锚点(Semantic Anchors)上,得到稀疏且可解释的分配权重 π。

2. Proto-Conditioned 交互

得到的原型分配结果 π并不是用来直接做分类的,而是作为“软偏置”去影响交叉特征 Attention 和 FFN 的门控(FiLM),真正实现了“序列语义指导特征交互”。

三、双版本实现:兼顾科研与工业落地

该仓库的一大亮点是提供了两套代码,分别对应不同的应用场景,这对工程化非常有参考价值。

特性

科研版 (HeteroFormer_model/)

工业稳定版 (PCVRHeteroFormer/)

适用场景

复现论文、消融实验

单卡训练、线上部署

序列编码器

SSM (连续时间)

RoPE Transformer

原型层

Cayley + Sinkhorn (O(K2))

Soft Theme Routing (轻量级)

训练策略

DSO + MetaAligner (解耦优化)

联合损失优化

校准模块

Diffusion + Energy

Softplus MLP Head

个人感悟:在工业版中,虽然为了稳定性牺牲了部分复杂的 OT(最优传输)计算,但验证了核心思想的有效性——Validation AUC 依然能从 0.78 单调提升至 0.83。这证明了“序列参数化交互”这一范式本身的价值。

四、关键技术细节解析

1. 解耦语义优化(DSO)

训练多目标模型(CTR + 生成式语义)很容易导致梯度冲突。HeteroFormer 引入了MetaAligner,这是一个过拟合感知控制器,能根据训练-验证的 AUC Gap 动态调整辅助损失的权重 λaux​,防止模型在后期出现 NaN 或崩溃。据仓库日志显示,该方案在 2500 个训练步中实现了Zero NaN Recoveries

2. 生成式语义层

除了常规的 CTR 头,模型还包含:

  • Diffusion Explainer:捕获残差信号。

  • Energy Calibrator:预测误差的能量函数,用于判断样本的不确定性。

3. 可解释性(Semantic IDs)

传统的 Attention 权重很难解释,而 HeteroFormer 输出的 π向量天然就是离散的语义 ID(例如:“价格敏感型浏览”、“冲动消费”)。这对于推荐系统的 Debug 和业务分析非常友好。

五、实验结果速览

在腾讯官方数据集 TencentGR 上的表现:

  • Full Version: Val AUC 峰值0.8383,Test AUC0.7728

  • Prototype Entropy: 稳定在 4.3(理论最大值的 89%),说明模型学到了丰富的语义概念。

  • Energy Calibrator: 成功区分高不确定性样本(语义冲突)和低不确定性样本。

六、总结与展望

HeteroFormer 给 CTR 领域提供了一个新的视角:与其在 Transformer 上堆砌参数,不如重新思考特征交互的物理意义。

通过将序列转化为“原型”,再让原型去控制特征交互的拓扑结构,这种方法既降低了计算复杂度(Attention 复杂度降至 O(16d)),又提升了模型的表达能力。

如果你正在从事推荐系统或计算广告相关的研发,强烈建议去扒一下这个仓库的代码,尤其是trainer.py中关于 DSO 的实现细节,非常硬核。


GitHub 地址:https://github.com/zhuizhuzheming/taac_2026

论文/技术报告:https://zenodo.org/records/20420273


如果这篇复盘对你有帮助,欢迎点赞收藏,关注我,一起探索前沿 AI 技术!

http://www.jsqmd.com/news/913477/

相关文章:

  • 从界面看MMarkets(评测类)值得关注吗?
  • 终极HS2-HF Patch模组包:200+插件一键安装,彻底解决Honey Select 2兼容性问题
  • 13454353
  • Artec 3D三维扫描技术赋能卢森堡大公青铜肖像创作【巷尚UP3D】
  • 软件测试常见面试题整理
  • 2026年至今杭州植物饮料提取生产线厂商选择与行业深度观察 - 2026年企业资讯
  • 终极HS2游戏增强补丁完整解决方案:从零到精通的安装配置指南
  • Node.js技术周刊 2026年第18周
  • PyTorch版UNet车道线分割实战包:Tusimple训练+实线/虚线/积水路面多视频验证
  • NetcoreKevin:.NET 企业级智能体管理框架
  • 如何快速掌握开源质谱数据分析工具MZmine 3的完整工作流程
  • MiniMax联手支付宝打通AI商业闭环:M3系列提速在即
  • ncmdump终极指南:3分钟快速解密网易云音乐NCM文件
  • 终极指南:如何将Rhino 3D模型完美导入Blender
  • 定了!创想三维明日上市,12周年新品齐发
  • MATLAB多目标航迹起始仿真工具|5个动态目标同步建模+噪声与检测概率可调
  • STM32F10x平台RC663 NFC全协议读卡工程:支持Mifare/ISO14443A-B/ISO15693,含驱动、示例与一键清理脚本
  • C语言B样条曲线生成工具:支持2D/3D点列拟合、二/三次平滑插值与位图可视化
  • 第15章:AI辅助安全监控与应急响应——链上异常实时告警
  • 【Claude战略规划文档实战指南】:用1份模板+6套Checklist,3天完成企业级AI路线图重构
  • 【LangGraph】LangGraph 协调者-工作者模式完全解析:从零构建一个智能报告生成系统
  • BeeWorks:以安全专属与AI原生,重新定义企业即时通讯的智能入口
  • 杆塔型太阳能供电系统亲测分享:哪家公司最靠谱?
  • Agent Teams 多代理协作
  • CRNN中文文字识别完整工程包:含360CC数据集、训练模型与PyTorch可运行源码
  • LIO-SAM 优化方向综述:从因子图到多模态SLAM
  • 模型幻觉频发、收敛极慢、资源耗尽——Claude优化问题全链路诊断,今天必须修复的4个致命配置
  • 用 AI 写自媒体文案,再也不用熬夜
  • 业主做门窗定制,到底在定制什么?从安全、舒适到交付的真实需求分析
  • DOM ProcessingInst: 深入解析与高效实践