当前位置：首页 > news >正文

# 推荐系统学习笔记-05

news 2026/6/30 19:00:45

原文链接：https://datawhalechina.github.io/fun-rec/chapter_6_scaling/1.hstu.html

感觉这一章的内容比较适合从结果出发进行展开，结论是HSTU突破了传统DLRM的Scaling瓶颈。原因有四个方面的创新作为技术支撑，分别是范式的转变，架构的创新，工程的优化和统一的特征空间。

范式的转变

感觉这里的突破有点强化学习的一点意味，强化学习的基本现实是环境给出一个状态，智能体(agent)根据得到的状态做出决策，选择一个动作，然后环境根据状态给一个奖励，最后给出下一时间步的状态。这样就生成了一组由组成的马尔可夫决策过程。

回到正题，传统建模是只建模物品序列。Meta团队提出了Generative Recommender（GR）范式，将用户的行为纳入考虑范围，将推荐过程视为两个交织的随机过程，表现为交替出现的内容和行为序列：

统一异构特征空间

解决类别型特征，GR的解决思路是时间轴对齐和压缩合并。

时间轴对齐是先找出变化最频繁的特征，例如用户点击、点赞、收藏、转发、评论的物品序列作为“主时间线”。对其他的特征进行压缩，具体是对于每个连续的相同值段，只保留第一次出现的记录。最后是将压缩后的序列合并到主时间线中。

对于数值型特征，作者先抬高视线，提出假设如果序列模型足够强大，能够建模足够长的历史，那么数值型特征就可以自动学习类别型特征的聚合统计。从DLRM的特征空间表示== { sparse features } U{ dense features}，到GR的= Seq(sparse features)。当n时，GR的特征空间可以近似覆盖DLRM的特征空间：。

训练效率的飞跃

统一的序列表示使得行为序列的预测是在一次前向传播中完成，这样可以用同样的计算预算，训练复杂度更高的模型。

HSTU架构

使用Pointwise Aggregation替代Softmax Attention

与DIN算法类似的做法，没有使用注意力机制中的softmax使结果的群众和为1。更多的考量是为了知道哪些行为更重要，重要到哪种程度。所以使用到pointwise aggregation替换了softmax。

相对位置编码重新设计

这一点更多的是考量到与语言序列的区别，还有考虑现实当中的时间因素。因此，HSTU引入了一个增强的相对位置bias机制，记为。它不仅考虑位置关系，还考虑实际时间间隔。

简化前馈网络和门控机制

提出前馈网络（FFN）占据了Transformer的大部分参数和计算量。为了减少参数量和计算量，使用到element-wise门控机制替代FFN；然后使用到单层线性投影加激活替代门控函数。

好处是：

减少参数量和计算量；

降低激活值内存：更少的中间层意味着反向传播需要保存的激活值更少。

训练与推理的工程优化

Stochastic Length

观察到用户行为在不同时间尺度上展现出重复的模式，提出Stochastic Length（随机长度）的训练。核心思想很简单：对于长度为的用户序列，不总是使用完整的序列进行训练，而是以一定概率随机截取一个较短的子序列。

M-FALCON

HSTU团队提出M-FALCON通过三层递进的优化，解决了推理延迟的问题。

三层优化分别是：第一层优化：Batched Inference ；第二层优化：Microbatching；第三层优化：KV Caching。（此处的技术实现感觉很精妙，意思是本人没有看懂）