当前位置: 首页 > news >正文

# 推荐系统学习笔记-05

原文链接:https://datawhalechina.github.io/fun-rec/chapter_6_scaling/1.hstu.html

感觉这一章的内容比较适合从结果出发进行展开,结论是HSTU突破了传统DLRM的Scaling瓶颈。原因有四个方面的创新作为技术支撑,分别是范式的转变架构的创新工程的优化统一的特征空间

范式的转变

感觉这里的突破有点强化学习的一点意味,强化学习的基本现实是 环境给出一个状态,智能体(agent)根据得到的状态做出决策,选择一个动作,然后环境根据状态给一个奖励,最后给出下一时间步的状态。这样就生成了一组由组成的马尔可夫决策过程。

回到正题,传统建模是只建模物品序列。Meta团队提出了Generative Recommender(GR)范式,将用户的行为纳入考虑范围,将推荐过程视为两个交织的随机过程,表现为交替出现的内容和行为序列:

统一异构特征空间

解决类别型特征,GR的解决思路是时间轴对齐和压缩合并。

时间轴对齐 是先找出变化最频繁的特征,例如用户点击、点赞、收藏、转发、评论的物品序列作为“主时间线”。对其他的特征进行压缩,具体是对于每个连续的相同值段,只保留第一次出现的记录。最后是将压缩后的序列合并到主时间线中。

对于数值型特征,作者先抬高视线,提出假设 如果序列模型足够强大,能够建模足够长的历史,那么数值型特征就可以自动学习类别型特征的聚合统计。从DLRM的特征空间表示== { sparse features } U{ dense features},到GR的= Seq(sparse features)。当n时,GR的特征空间可以近似覆盖DLRM的特征空间:

训练效率的飞跃

统一的序列表示使得 行为序列的预测是在一次前向传播中完成,这样可以用同样的计算预算,训练复杂度更高的模型。

HSTU架构

使用Pointwise Aggregation替代Softmax Attention

与DIN算法类似的做法,没有使用注意力机制中的softmax使结果的群众和为1。更多的考量是为了知道哪些行为更重要,重要到哪种程度。所以使用到pointwise aggregation替换了softmax。

相对位置编码重新设计

这一点更多的是考量到与语言序列的区别,还有考虑现实当中的时间因素。因此,HSTU引入了一个增强的相对位置bias机制,记为。它不仅考虑位置关系,还考虑实际时间间隔

简化前馈网络和门控机制

提出前馈网络(FFN)占据了Transformer的大部分参数和计算量。为了减少参数量和计算量,使用到element-wise门控机制替代FFN;然后使用到单层线性投影加激活替代门控函数。

好处是:

减少参数量和计算量

降低激活值内存:更少的中间层意味着反向传播需要保存的激活值更少。

训练与推理的工程优化

Stochastic Length

观察到用户行为在不同时间尺度上展现出重复的模式,提出Stochastic Length(随机长度)的训练。核心思想很简单:对于长度为的用户序列,不总是使用完整的序列进行训练,而是以一定概率随机截取一个较短的子序列。

M-FALCON

HSTU团队提出M-FALCON通过三层递进的优化,解决了推理延迟的问题。

三层优化分别是:第一层优化:Batched Inference ;第二层优化:Microbatching;第三层优化:KV Caching。(此处的技术实现感觉很精妙,意思是本人没有看懂)

推荐系统的Sacling Law

此处讲到Meta团队设计了scaling实验,在计算量方面做对比,发现指标呈现了很好的幂律关系。并给出了你和结果:

  • 召回任务:HR@100 = 0.15 + 0.0195
  • 排序任务: NE = 0.549 - 0.0053

这意味着:计算量每增加10倍(一个数量级),Hit Rate@100约提升4.5个百分点,Normalized Entropy下降约1.2个百分点。这个scaling关系在三个数量级的计算量范围内都稳定成立

首次证明了推荐模型的scaling law,推荐不再是深度学习的”例外”,它也遵循compute-optimal的scaling规律。

感觉这章内容很重要,比之前那章更有条理和逻辑性。有时间的话大家去看一下原文,逻辑很缜密,覆盖了好几个方面的内容,很有意思。

http://www.jsqmd.com/news/530698/

相关文章:

  • 3步完成模型部署:Nanbeige 4.1-3B 极简版WebUI在星图平台的上手体验
  • damaihelper:公平购票的技术解决方案
  • ANSYS APDL模态分析实战:如何用20行命令搞定结构振动问题
  • 如何在5分钟内快速上手Adafruit GFX图形库:Arduino显示开发的完整指南
  • ANSYS Box Color 和 Transparent 应变为可编辑状态 无法选中 解决办法
  • Flink 最少处理一次和恰好处理一次
  • Phi-4-Reasoning-Vision企业实操:多用户并发图文推理服务部署架构设计
  • FastAdmin弹窗自定义全攻略:从按钮配置到宽高调整一步到位
  • 新手必看:YOLOv10官版镜像使用教程,从预测到训练一网打尽
  • 轻量级调控工具GHelper:性能优化的颠覆式解决方案
  • 通义千问3-4B资源推荐:从镜像获取到性能优化,一站式指南
  • Android Binder死亡通知机制保姆级源码解析:从Java到C++再到内核的完整链路
  • 上海正规注册文创公司服务机构推荐榜 - 优质品牌商家
  • 终极指南:如何免费实现PC微信QQ消息防撤回,告别信息丢失烦恼
  • 性能调优实战:提升OpenClaw在nanobot镜像上的任务响应速度
  • Llama-3.2V-11B-cot多模态推理实战:支持中文提问+英文图像描述双向理解
  • Windows开机自启应用开机后延迟很长时间 才启动 解决方法
  • NaViL-9B惊艳效果展示:中英文混合图文问答真实生成作品集
  • RexUniNLU批量分析技巧:控制并发、处理超时、解析嵌套结果全攻略
  • 3大技术突破破解化工热力学计算难题:Thermo开源库深度解析
  • 选型指南:你的DC-DC项目,该用传统PWM Buck还是COT Buck?(从纹波、效率、成本多维度拆解)
  • 【无人机巡检】计及多约束的电力巡检无人机机巢布点选址算法附Matlab代码参考文献
  • 2026南京公司注册服务深度评测报告 - 优质品牌商家
  • C#驱动开发实战:深入解析罗克韦尔ControlLogix PLC的CIP通信核心
  • Fish Speech 1.5多场景落地:电商商品播报、AI讲师、无障碍阅读实战
  • HashMAP底层原理和扰动hash的例子
  • 技术驱魔全录:给中邪服务器泼黑狗血
  • 5分钟快速激活Windows与Office:KMS_VL_ALL_AIO终极指南
  • 源码_机顶盒ADB密码计算与三码修改工具
  • DolphinScheduler API调用避坑指南:从Java原生URL到HttpClient的实战升级