当前位置: 首页 > news >正文

从WideDeep到DeepCross:聊聊推荐系统模型演进的‘分’与‘合’

从Wide&Deep到Deep&Cross:推荐系统模型设计的哲学思辨

推荐系统在过去十年经历了从简单协同过滤到复杂深度学习的跃迁,而Wide&Deep模型的提出无疑是这一演进过程中的关键转折点。它首次系统性地将"记忆"与"泛化"这对看似矛盾的能力统一在一个框架下,为后续模型设计提供了范式级的参考。当我们站在技术演进的视角回望,会发现推荐模型的发展始终围绕着"分"与"合"的辩证关系展开——何时该解耦特征处理路径?何时又该融合不同建模方式?这些决策背后体现的是工程师对业务本质的深刻理解。

1. 记忆与泛化的二分法:Wide&Deep的范式创新

2016年谷歌提出的Wide&Deep架构之所以能成为行业标杆,关键在于它精准把握了推荐系统的核心矛盾:既要准确捕捉已知的用户偏好(记忆),又要能推断未知的兴趣关联(泛化)。这种二分法设计不是简单的模块堆砌,而是对推荐问题本质的深刻抽象。

记忆能力的工程实现通常体现在以下方面:

  • 显式特征交叉:人工设计的组合特征(如"用户A+商品B")
  • 稀疏特征直通:让关键ID类特征绕过深层网络直接影响输出
  • 规则注入:将业务经验通过特征工程硬编码到模型中

泛化能力的典型特征包括:

  • 自动特征组合:通过神经网络隐式学习特征间高阶关系
  • 嵌入表示:将离散特征映射到连续向量空间
  • 迁移学习:利用其他领域数据提升冷启动表现
# Wide&Deep的典型特征处理差异 wide_features = ['user_installed_app', 'impression_app'] # 人工选择的交叉特征 deep_features = ['user_age', 'device_type', 'installed_apps'] # 全量特征自动学习 # Wide部分处理逻辑 crossed_feature = tf.feature_column.crossed_column( ['user_installed_app', 'impression_app'], hash_bucket_size=10000)

在实际业务中,这两种能力的配比需要动态调整。电商场景可能更依赖记忆能力(如"买了尿布的用户常买啤酒"),而内容推荐则更需要泛化能力(从有限观看历史推断广泛兴趣)。这种权衡艺术正是模型设计的精髓所在。

2. 从人工交叉到自动学习:Deep&Cross的进化之路

Wide&Deep的成功也暴露了其局限性——Wide部分依赖大量人工特征工程。2017年提出的Deep&Cross模型通过引入Cross网络,将特征交叉的工作自动化,标志着推荐系统向端到端学习又迈进了一步。

Cross网络的核心创新在于:

  1. 显式高阶交叉:通过数学构造实现特征的多层交互
    x_{l+1} = x_0 * (W_l * x_l + b_l) + x_l
  2. 参数效率:每层仅增加O(n)参数,避免维度爆炸
  3. 残差连接:保留原始特征信息防止过度交叉

与经典Wide部分的对比:

特性Wide部分Cross网络
交叉方式人工指定自动学习
交叉阶数固定二阶可学习高阶
参数数量随特征数线性增长固定规模
业务理解依赖

这种设计转变反映了推荐系统发展的一个关键趋势:从人工规则到数据驱动。在信息流推荐等场景中,用户兴趣瞬息万变,人工设计特征交叉的效率已跟不上业务变化速度。某头部短视频平台的实际案例显示,采用Cross网络后特征迭代周期从2周缩短至3天,CTR提升达11.6%。

3. 分与合的辩证关系:模型架构的演进逻辑

推荐模型的演进史本质上是对"分"与"合"的持续探索。Wide&Deep选择了记忆与泛化的分离,而后续改进模型则尝试在不同维度进行再组合或再分离。

典型演进路径

  1. 特征处理路径分离

    • DeepFM:将Wide部分替换为FM模块
    • xDeepFM:引入压缩交互网络(CIN)显式学习特征交互
  2. 目标函数融合

    • 多任务学习:如YouTube的联合训练点击率和观看时长
    • 渐进式精排:粗排/精排模型的级联设计
  3. 时空维度解耦

    • DIN:引入注意力机制区分历史行为重要性
    • TiSAS:显式建模时间间隔的影响

这些创新背后的设计哲学值得玩味:

  • 当某个功能模块需要特别强化时,就将其"分"出来单独优化
  • 当发现多个模块存在协同效应时,就尝试"合"并处理
  • 最终目标都是提升模型在特定场景下的表达效率

4. 业务场景驱动的模型选择策略

没有放之四海皆准的完美架构,只有最适合当前业务阶段的模型选择。通过几个典型案例,我们可以总结出一些实用的决策原则。

电商推荐场景

  • 强依赖商品共现规律
  • 需要快速捕捉爆品趋势
  • 适合方案:Wide部分强化 + 实时特征更新
    # 电商场景的典型特征设计 wide_features = [ 'user_id', 'item_id', 'category_id', 'last_click_item' ]

新闻资讯推荐

  • 内容生命周期短
  • 冷启动问题突出
  • 适合方案:Deep部分为主 + 跨域迁移学习

视频推荐系统

  • 用户兴趣多元
  • 序列特征重要
  • 适合方案:Cross网络 + 行为序列建模

实际选型时需要考量的关键维度

  1. 特征更新频率
  2. 数据稀疏程度
  3. 业务响应速度要求
  4. 团队工程能力

在模型复杂度与业务收益之间找到平衡点,这才是推荐系统工程师的真正价值所在。正如某位资深算法专家所说:"最好的模型不是指标最高的那个,而是能在你的系统里持续运转的那个。"

http://www.jsqmd.com/news/979510/

相关文章:

  • LLM四大落地路径:Prompt、函数调用、RAG与微调的选型决策指南
  • 【延安黄金奢侈品回收 六大门店实地测评与变现攻略】 - 润富黄金回收
  • 2026年Q2泡浴产品代加工厂家性价比排行 - 优质品牌商家
  • 从显示器校准到FPGA实战:手把手教你用Verilog实现一个简易3D-LUT颜色转换模块
  • ARM与FPGA如何高效‘对话’?基于SPI协议的颜色校准系统通信设计与调试避坑指南
  • 别再只玩Arduino了!用ESP-12F做个智能插座,从硬件选型到HomeAssistant接入保姆级教程
  • 别再只盯着PageRank了!用NetworkX实战介数中心度,快速找出你社交网络里的‘关键人物’
  • 用Matlab搞定数学建模:从濒危物种到汽车租赁,手把手教你玩转差分方程
  • 多维数据聚合:从GROUP BY到OLAP立方体的工程实践
  • 基于 Harmony 6.0 应用的编程学习平台首页实现
  • 告别照搬:深入SOEM的OSAL与OSHW层,定制你的轻量级EtherCAT主站
  • 从8253的M法到你的第一个数字频率计:微机原理课设核心思路拆解
  • PowerQUICC III平台RapidIO启动与内存访问配置全解析
  • ML模型生产监控:构建可观测性与自动化响应闭环
  • 【延安闲置黄金变现 六大正规回收门店测评】 - 润富黄金回收
  • 从AR项目实战复盘:我们是如何用QuickOutline插件优化物体高亮逻辑,提升用户体验的
  • 深度解析ESP-12F的三种省电模式:从数据手册到真实项目如何节省90%电量
  • 告别‘失联’:用电压比较器LM393给你的嵌入式设备加个‘临终遗言’功能(附超级电容选型)
  • Mythos安全大模型:攻防全链路自动化与因果推理革命
  • 告别官方依赖:手把手教你为RK3588 Android12 SDK搭建私有Repo镜像服务器
  • Sqribble模板驱动排版:稳定高效的数字出版流水线
  • 用74LS193和DAC0832做个数控恒流源:从原理图到Multisim仿真的保姆级拆解
  • 提示词工程的本质是沟通:从意图理解到行为目标设计
  • 别再被心电图噪声搞晕了!手把手教你用MATLAB搞定ECG信号预处理(附代码)
  • 从投稿被拒到顺利接收:聊聊我在论文里添加ORCID和LaTeX排版的那些‘小事’
  • 四大工业场景双金属耐磨管件实测评测:性能与适配对比 - 优质品牌商家
  • 避开DH参数法的坑:用现代机器人学中的螺旋理论重新理解UR5运动学
  • 2026年5月郯城红梅苗木供应机构排行盘点:乌桕苗木、巨紫荆苗木、日本红枫苗木、朴树苗木、榉树苗木、樱花苗木、欧洲枫香苗木选择指南 - 优质品牌商家
  • 【RT-DETR实战】165、工业缺陷检测综合项目:模型改进与训练手记
  • Arduino玩转RFID:除了复制门禁卡,你的RC522模块还能这样用(项目思路拓展)