当前位置：首页 > news >正文

MixFormer: Co-Scaling Up Dense and Sequence in Industrial Recommenders 论文笔记

news 2026/7/16 0:09:14

字节跳动精排 Scaling 的工作 Mixformer（和 HyFormer 算是同期工作吧），目前挂在 Arxiv 26.02 上，也是提出了一个新的架构实现更好的统一 Scaling

背景

现有序列建模和特征交叉的工作主要分为分离式和统一式，分离式的设计限制了双向信息流和延迟优化，统一式的 OneTrans 使用 Transformer 架构，虽然效果好，但如果不加改造，计算量巨大（尤其是 Cross-Attention 部分），难以满足工业级低延迟要求。因此，本文提出了 Mixformer 架构和 User-Item Decoupling 策略实现了更好的 Scaling 和计算效率

方法

Feature Embedding and Splitting

与先前的工作不太一样，这里对序列特征和非序列特征的处理为：

序列特征：用户历史行为序列 \(S = [s_1, s_2, \cdots, s_T]\)（每个交互行为 \(s_t\) 包含 item ID、action type、timestamp 和 side info），每个 \(s_t\) 经过 Embedding 层然后 Concat
非序列特征：包含用户特征、Item 特征和上下文特征，这些特征各自经过 Embedding 后再 Concat 起来，得到 \(e_{ns} = [e_1; e_2; \cdots; e_M] \in \mathbb{R}^{D_{ns}}\)（其中 \(D_{ns}\) 表示所有非序列特征的总嵌入维度）

然后非序列特征 \(e_{ns}\) 充当整个网络的 Query 的作用。结合多头注意力的机制，本文进一步将 \(e_{ns}\) 均匀地划分为 N 个连续的子向量，然后将每个子向量投影为 D 维向量，从而保持表示多样性

PS：论文这里非序列特征的 Token 化其实和 RankMixer、OneTrans、MTGR 的思路还有一些不同：这里没有将每个非序列特征单独一比一的映射成 Token（MTGR），也不是 Group-wise 的方式（RankMixer）或者 Auto-split 的方式（OneTrans）；而是将所有非序列特征的嵌入拼接后，拆分为一组数量固定、维度统一的紧凑特征 Token。个人感觉和 Auto-split 比较接近？只不过 Auto-split 是直接 concat 然后过 MLP 再切分

Query Mixer

本文提到受 RankMixer 的启发，查询源自推荐场景中高度异构的特征字段，包括用户属性、项目属性和上下文信号。这些特征源自不同的语义空间，并且通常对应于极大且稀疏的 ID 域。在这种异质性下，通过内积相似性计算注意力权重本质上是不可靠的，因为很难在不同特征空间之间建立有意义的对齐。结果自注意力不仅无法持续提高建模效果，而且还引入了大量的计算开销

因此这里使用轻量级、无参数的 MLP-Mixer 模块取代了自注意力（见框架图的最左边，这里叫做 HeadMixing 操作），然后再给每个查询头过一个 SwiGLUFFN：

\[P = [p_1, \cdots, p_N] = \text{HeadMixing}(\text{Norm}(X)) + X \]

\[q_i = \text{SwiGLUFFN}_i(\text{Norm}(p_i)) + p_i \]

Cross Attention & Output Fusion

Query Mixer 的 N 个输出头直接作为 Cross Attention 的 N 个 Query Head（这里不需要额外的投影矩阵是因为每个查询头都代表着非序列特征特定的子空间）。对于 KV Encoding，这里对每个行为使用当前层（不同层的参数是独立）的 SwiGLUFFN 做变换，使序列表示与query输入对齐，接着对不同的 Query Head 使用不同的权重计算得到 K 和 V，最后计算注意力输出并进行残差连接（见框架图的最右边）

Output Fusion 的作用就是对 Cross Attention 输出的聚合信息进行深度非线性融合，这里不同 Query Head 的 FFN 依旧是独立的

\[\sigma_i = \text{SwiGLUFFN}_i(\text{Norm}(z_i)) + z_i \]

User-Item Decoupling

请求级批处理（RLB）作为一种提高推荐训练和推理效率的有效范例而出现，它在单个请求中跨多个目标共享用户端计算，以实现计算成本的大幅降低。然而在原始 MixFormer 中，user 侧和 item 侧的非序列特征是耦合在一起的，对于同一用户请求, 精排模型一般需要对数百/上千个候选 item 进行打分，在一个 batch 里面 user 端的非序列特征实际上是重复计算的

PS：推荐系统线上的处理逻辑是将一个用户的 user-item 候选对放到同一个 batch 里面（不会出现同一个用户请求后产生的候选对跨 Batch 的情况），也就是说 user 端的非序列特征也只要计算一次。OneTrans 只考虑了序列特征的 KV Caching 优化，没有考虑到 user 端的非序列特征计算也是在一个 batch 里面只共享一次的

MixFormer 首先将非序列特征拆分成 user 端和 item 端两个 heads 子集（作者在实际设置中设置成 1:1），然后再 HeadMixing 操作中 mask 掉 user head \(\rightarrow\) item head 的信息流（如上图所示，可以看到最后的 user head 不包含任何的 item 信息），从而可以安全地在 RLB 中跨候选 item 共享 user 端的计算结果