当前位置: 首页 > news >正文

“HyFormer: Revisiting the Roles of Sequence Modeling and Feature Interaction in CTR Prediction“ 论文笔记

传统推荐精排模型有两个非常重要的子模块,序列建模和特征交叉,这两个子模块一般先做序列建模学习用户兴趣表示, 再与非序列特征 concat 起来做特征交叉。OneTrans试图用一个统一的 Transformer 来将这两个子模块统一起来,本文提出的HyFormer也是类似的思路, 都是希望实现精排序列建模与特征交叉的统一,但HyFormer在架构上进行了更深入的改进(下文的多序列建模部分有提到MTGROneTrans采用简单的序列合并会导致性能显著下降)

方法

Query Generation

输入特征的 Tokenization 沿用RankMixer/OneTrans策略,对于非序列特征有Group-wiseAuto-split两种 Token 化方式,这里选择的是前者

与现有工作不同的是,Hyformer提出了Global Tokens用来当前序列特征和非序列特征中提取出全局信息,在后续链路中起到 Query 的作用。具体做法是先将所有非序列特征向量 �1,�2,…,�� 与序列的 Mean Pooling 结果拼接,得到 Global Info,再通过 � 个并行的轻量 FFN 将其投影为 � 个 Global Tokens:

�=[FFN1(Global Info), …, FFN�(Global Info)]∈��×�

这里的 � 是超参,在 HyFormer 中 N 通常很小(实验中与其他非序列 Token 凑成总共 16 个),远小于 OneTrans 将所有 NS-tokens 都作为 Query 的做法,大量减小了 KV Cache 的计算开销

KV Encoding

在 Query Decoding 执行之前,长行为序列需要先被编码为逐层的 K/V 表示。HyFormer在这里提供了三种灵活的策略,以适应不同场景的算力约束(所有策略最终都会产出同一套接口:(��,��),用来给 Query Decoding 进行消费):

  • Full Transformer Encoding:最重但是最强的方式,直接在长序列上做完整的 Self-Attention,捕捉序列内部的细粒度交互。适合离线场景或对效果极度敏感的头部流量。

  • LONGER-style Efficient Encoding:为适配在线推理,用一条极短的压缩序列(记为 �short)作为 Query,对完整长序列做 Cross-Attention。复杂度从 �(��2) 降至 �(����)(��≪��),在保持大部分建模能力的同时大幅压缩计算量

  • Decoder-style Lightweight Encoding:最轻量的版本,直接用 SwiGLU 等无 Attention 的前馈操作对序列做逐位变换,完全舍弃 Token 间交互,适合对延迟要求极端的场景

Query Decoding

有了 Query 和序列的 K/V 表示,Query Decoding 就是对长序列做一次标准的 Multi-Head Cross-Attention:

�~(�)=CrossAttn(�(�−1),�(�),�(�))

这一层的输出 �~(�) 是被长序列更新过的 Global Tokens,携带了从用户行为历史中提取的与当前全局上下文相关的兴趣信号,从而让 HyFormer 实现上下文信息在每一层都能直接干预序列的理解

Query Boosting

如果说前面 Query Decoding 的作用是序列建模,那这里 Query Boosting 的作用就是特征交叉。前面 Query Decoding 通过将 Global Token 与用户行为序列的多层解码,让 Query 一定程度上实现 sequence-aware,但与非序列特征之间的特征交叉能力不足,所以这里先将两者拼接为一个统一的 Token 集合

�=[�~(�),�1,…,��]∈��×�

然后使用RankMixer的 Token Mixing 操作,让这些 Token 两两之间充分交换信息。具体而言,每个 Token 沿通道维度被切分成 � 个子空间(这里子空间数与 Token 数量必须一致),同一子空间内的所有 Token 拼接后送入一个跨 Token 的 MLP,实现类似“所有 Token 在某个子空间内互相看一眼”的效果,最后再过一个 Per-Token FFN 做逐 Token 的语义精炼,并通过残差连接与输入相加,作为当前HyFormer Layer的输出

�~boost=�+PerToken-FFN(TokenMixer(�))

Query Boosting 的输出一方面作为本层最终产物向上层传递,另一方面也成为下一层 Query Decoding 的新 Query,形成一个交替递进的闭环

Multi Sequence Modeling

工业场景下用户通常有多条异质行为序列(如搜索序列、短视频序列、商品序列),不同序列的特征空间和语义差异巨大。OneTransMTGR的做法是将它们按时间戳或意图排序后拼接成一条长序列统一处理,但HyFormer的实验发现这种简单合并在实际业务中会导致约 1.2% GMV 的显著下降。

HyFormer 的解法延续了其用少量 Global Tokens 做信息路由的思路:每条序列分配至少一个专属的 Global Token,各自独立地对该序列做 Query Decoding。由于 Global Tokens 不要求序列间的特征维度对齐,每条序列可以用完全独立的稀疏特征空间(不同的 side information)进行编码,从根本上避免了合并序列时被迫对齐的语义折损。进入 Query Boosting 阶段后,不同序列的 Global Tokens 在同一个 Token Mixing 池子里互相交互,间接完成跨序列的信息融合。这种“各序列独立解码 + 统一混合池交互”的设计,让模型既能保留各序列的建模独立性,又能实现隐式的跨序列知识迁移

实验

可以看到 HyFormer 在同等程度的参数量下大大减小了 FLOPs,同时取得了最高的 AUC

与最佳基线 LONGER + RankMixer 相比,Scaling 表现领先很多,线上也取得了很明显的收益

http://www.jsqmd.com/news/1132906/

相关文章:

  • Win11上面安装多个Keil版本,但是需要指定默认的版本,如果Win11自己的指定方式不成功,可以用下面的方法
  • 063、超分评价指标详解:PSNR、SSIM、LPIPS 与 NIQE 的计算与对比
  • 如何在macOS上完美使用Xbox控制器:360Controller驱动终极解决方案
  • 用自然语言让 AI Agent 卸载软件 —— 以卸载 Visual Studio 2026 为例
  • 英雄联盟自动化工具箱:三分钟告别繁琐操作,专注游戏核心体验
  • 那些年,我们买过的“电子垃圾”:科技产品的真实寿命
  • IoU-Aware分类损失:把定位质量纳入分类评分,NMS误删率直降的秘籍
  • Agent开发本质是CRUD编排:状态建模与执行层工程实践
  • Vin象棋:基于YOLOv5的智能中国象棋AI辅助工具,告别手动摆棋的烦恼
  • C语言用双向链表实现单调递减(递增)队列
  • Layerdivider:如何用AI在5分钟内将任何插画转换为可编辑PSD图层
  • 从零构建搜索引擎:Python 异步爬虫 + 倒排索引 + Sanic 前后端实战
  • 2026论文全流程终极榜单:10款降AI率平台,查重降重+降AIGC一次通关
  • Linux 5.15 网口驱动调试:从 PHY 初始化到 DMA 异常的 5 步硬件排查法
  • 暗黑破坏神2存档修改终极指南:免费Web编辑器d2s-editor完全解析
  • AIOps 自动修复边界:能自动做,不代表该自动做
  • 如何做仿真?
  • 061、自定义数据集训练:如何将自己的图像和视频数据用于超分模型
  • 5分钟解锁Wand高级功能:开源增强工具完整指南
  • Spek频谱分析器终极指南:5分钟掌握音频可视化分析完整教程
  • 人体骨骼时序动态感知模型 头肢活跃度量化+实时情绪推演核心算法专项解析
  • 3分钟免费解锁B站缓存视频:m4s-converter终极完整指南
  • 130、共享卷积 Head:分类和回归分支共享前三层卷积的参数共享策略与效果
  • 基于3D整数小波与超混沌系统的彩色图像加密算法详解与Matlab实现
  • 机械专业不想干纯设计,可以转什么方向?2026年热门转型指南
  • 本地化代码生成AI部署指南:从环境配置到API集成实践
  • 使用 Oracle EBS 的中国企业Oracle EBS在中国金融、电信、能源等行业有大量深度用户,尤其在银行和保险行业占据主导地位。金融行业(银行)这是Oracle EBS在中国最集中的用户
  • RIP实验需求配置
  • ALVR无线VR串流:释放你的PC VR游戏,体验无拘无束的虚拟现实
  • Windows 下Maven安装配置(本地仓库配置)