当前位置: 首页 > news >正文

MixFormer: Co-Scaling Up Dense and Sequence in Industrial Recommenders 论文笔记

字节跳动精排 Scaling 的工作 Mixformer(和 HyFormer 算是同期工作吧),目前挂在 Arxiv 26.02 上,也是提出了一个新的架构实现更好的统一 Scaling

背景

现有序列建模和特征交叉的工作主要分为分离式和统一式,分离式的设计限制了双向信息流和延迟优化,统一式的 OneTrans 使用 Transformer 架构,虽然效果好,但如果不加改造,计算量巨大(尤其是 Cross-Attention 部分),难以满足工业级低延迟要求。因此,本文提出了 Mixformer 架构和 User-Item Decoupling 策略实现了更好的 Scaling 和计算效率

方法

image

Feature Embedding and Splitting

与先前的工作不太一样,这里对序列特征和非序列特征的处理为:

  • 序列特征:用户历史行为序列 \(S = [s_1, s_2, \cdots, s_T]\)(每个交互行为 \(s_t\) 包含 item ID、action type、timestamp 和 side info),每个 \(s_t\) 经过 Embedding 层然后 Concat

  • 非序列特征:包含用户特征、Item 特征和上下文特征,这些特征各自经过 Embedding 后再 Concat 起来,得到 \(e_{ns} = [e_1; e_2; \cdots; e_M] \in \mathbb{R}^{D_{ns}}\)(其中 \(D_{ns}\) 表示所有非序列特征的总嵌入维度)

然后非序列特征 \(e_{ns}\) 充当整个网络的 Query 的作用。结合多头注意力的机制,本文进一步将 \(e_{ns}\) 均匀地划分为 N 个连续的子向量,然后将每个子向量投影为 D 维向量,从而保持表示多样性

PS:论文这里非序列特征的 Token 化其实和 RankMixer、OneTrans、MTGR 的思路还有一些不同:这里没有将每个非序列特征单独一比一的映射成 Token(MTGR),也不是 Group-wise 的方式(RankMixer)或者 Auto-split 的方式(OneTrans);而是将所有非序列特征的嵌入拼接后,拆分为一组数量固定、维度统一的紧凑特征 Token。个人感觉和 Auto-split 比较接近?只不过 Auto-split 是直接 concat 然后过 MLP 再切分

Query Mixer

本文提到受 RankMixer 的启发,查询源自推荐场景中高度异构的特征字段,包括用户属性、项目属性和上下文信号。这些特征源自不同的语义空间,并且通常对应于极大且稀疏的 ID 域。在这种异质性下,通过内积相似性计算注意力权重本质上是不可靠的,因为很难在不同特征空间之间建立有意义的对齐。结果自注意力不仅无法持续提高建模效果,而且还引入了大量的计算开销

因此这里使用轻量级、无参数的 MLP-Mixer 模块取代了自注意力(见框架图的最左边,这里叫做 HeadMixing 操作),然后再给每个查询头过一个 SwiGLUFFN:

\[P = [p_1, \cdots, p_N] = \text{HeadMixing}(\text{Norm}(X)) + X \]

\[q_i = \text{SwiGLUFFN}_i(\text{Norm}(p_i)) + p_i \]

Cross Attention & Output Fusion

Query Mixer 的 N 个输出头直接作为 Cross Attention 的 N 个 Query Head(这里不需要额外的投影矩阵是因为每个查询头都代表着非序列特征特定的子空间)。对于 KV Encoding,这里对每个行为使用当前层(不同层的参数是独立)的 SwiGLUFFN 做变换,使序列表示与query输入对齐,接着对不同的 Query Head 使用不同的权重计算得到 K 和 V,最后计算注意力输出并进行残差连接(见框架图的最右边)

Output Fusion 的作用就是对 Cross Attention 输出的聚合信息进行深度非线性融合,这里不同 Query Head 的 FFN 依旧是独立的

\[\sigma_i = \text{SwiGLUFFN}_i(\text{Norm}(z_i)) + z_i \]

User-Item Decoupling

请求级批处理(RLB)作为一种提高推荐训练和推理效率的有效范例而出现,它在单个请求中跨多个目标共享用户端计算,以实现计算成本的大幅降低。然而在原始 MixFormer 中,user 侧和 item 侧的非序列特征是耦合在一起的,对于同一用户请求, 精排模型一般需要对数百/上千个候选 item 进行打分,在一个 batch 里面 user 端的非序列特征实际上是重复计算的

PS:推荐系统线上的处理逻辑是将一个用户的 user-item 候选对放到同一个 batch 里面(不会出现同一个用户请求后产生的候选对跨 Batch 的情况),也就是说 user 端的非序列特征也只要计算一次。OneTrans 只考虑了序列特征的 KV Caching 优化,没有考虑到 user 端的非序列特征计算也是在一个 batch 里面只共享一次的

image

MixFormer 首先将非序列特征拆分成 user 端和 item 端两个 heads 子集(作者在实际设置中设置成 1:1),然后再 HeadMixing 操作中 mask 掉 user head \(\rightarrow\) item head 的信息流(如上图所示,可以看到最后的 user head 不包含任何的 item 信息),从而可以安全地在 RLB 中跨候选 item 共享 user 端的计算结果

实验

image
image

可以看到对比 Stacked 或 Parallel 的方法,MixFormer 都取得了 SOTA 的效果,线上 A/B 实验也取得了比较显著的收益

Mixformer 相较于现有方法取得了很好的 Scaling 曲线,此外 UI-MixFormer 在不同候选集大小下的推理延迟相比原始 MixFormer 实现 30%+ 的 speedup

总结

MixFormer 最突出的设计就是针对 RLB 提出的 User-Item Decoupling,和 Hyformer 一样都是很不错的工作,侧重点有些许不同,都是对推荐系统 Transfomer 类型架构的探索

http://www.jsqmd.com/news/816996/

相关文章:

  • 2026数智化选址服务商对比评测:5家品牌线下拓展服务商对比! - 品牌种草官
  • Awesome-FL 实战指南:手把手教你构建第一个联邦学习模型 [特殊字符]
  • 如何在macOS上轻松运行Windows程序:Whisky虚拟容器完整指南
  • Argos Translate实战指南:构建高效离线翻译服务的完整方案
  • Matlab算法VS2019落地实战:一份给C++工程师的Matlab Coder混合编程避坑指南
  • 2026江苏主任护师考试哪个培训机构好?基于学员真实口碑的综合排名 - 医考机构品牌测评专家
  • AI工作流IDE:aiworkspace架构解析与实战部署指南
  • 2026造纸废水处理必备:靠谱检测仪器品牌推荐 - 品牌推荐大师1
  • ESP32无代码物联网开发:WipperSnapper实战指南
  • TVA系统的开发语言与应用领域(16)
  • 地信职业百科②:GIS运维
  • 常用AI网站-李布丁专用
  • 2026年天津协议离婚律师推荐:聚焦津门家庭场景痛点,基于专业深度与调解实效评价 - 外贸老黄
  • 如何选择天津遗产继承律所?2026年专业评测与推荐,直击流程复杂与调解困难核心痛点 - 外贸老黄
  • Windows安卓应用安装新方案:告别模拟器,APK安装器如何实现原生级体验?
  • Dify数据库插件:让AI应用实时连接MySQL/PostgreSQL数据源
  • 如何高效提取Android系统镜像:payload-dumper-go实战指南
  • 在macOS上运行Windows程序:Whisky完整指南,轻松突破系统壁垒
  • 昆明钻石闲置回收行情解读,2026出手时机分析|别被商家坑哭! - 奢侈品回收测评
  • 终极指南:如何快速配置BrushNet AI图像修复工具
  • 深入解析UDS 0x19服务:DTC状态掩码与故障诊断实战
  • OpenClaw(小龙虾)Windows 一键部署教程,零基础搭建本地 AI 智能体
  • 内容创作团队如何借助Taotoken聚合不同模型特长提升内容生成效率
  • 大语言模型上下文漂移检测:原理、实现与工程实践
  • 终极指南:如何用Pygubu Designer快速开发Python GUI界面
  • 2026年5月最新广州全区黄金回收 无折旧费 24小时上门 实秤实收 - MR四木
  • “同学家住别墅,咱们穷吗?”:最好的家产,是睡个好觉
  • 基于ESP8266与Adafruit IO的智能家居安防系统实战指南
  • 制作程序统计公共停车场车位流动数据,实时测算空余车位,解决城市居民日常停车难,找车位浪费时间问题。
  • 高效自动化病理图像分析:QuPath多通道批处理技术深度解析