当前位置: 首页 > news >正文

推荐系统为啥都长一个样?聊聊「离线训练 + 在线召回 + 排序」这套大数据架构

推荐系统为啥都长一个样?聊聊「离线训练 + 在线召回 + 排序」这套大数据架构


如果你干过推荐系统,不管是内容推荐、电商、广告、资讯、短视频,大概率都会发现一件事:

架构看起来都差不多,但效果差距却能差出一个银河系。

我这些年看过、拆过、踩过的推荐系统不算少,越到后面越有一个感受:

推荐系统拼到最后,真不是算法多高级,而是架构是不是“拧得顺”。

今天我们就掰开揉碎,聊聊这套最经典、也最现实的推荐系统架构:

离线训练 + 在线召回 + 在线排序


一、先说结论:为啥推荐系统一定要拆成三段?

一句话总结:

不是为了优雅,而是为了活命。

推荐系统天然就有三大矛盾:

  1. 数据量巨大(全量用户 × 全量物品)
  2. 实时性要求极高(几十毫秒内给结果)
  3. 模型又想越复杂越好

这三件事,你想一锅端,结果只有一个:
👉系统崩、效果差、老板不开心

所以业界最终形成了一个非常“工程味”的共识架构:

离线:负责“想清楚” 在线:负责“跑得快”

拆开来看,就是三段:

  1. 离线训练:用大数据慢慢算
  2. 在线召回:快速缩小候选集
  3. 在线排序:精排出最终结果

二、离线训练:推荐系统真正“聪明”的地方

1️⃣ 离线训练到底在干嘛?

说人话版本:

用昨天甚至更早的数据,训练一个“大概靠谱”的模型。

典型离线任务包括:

  • 用户画像构建
  • 物品画像生成
  • Embedding 训练(user / item 向量)
  • 召回模型、排序模型训练

这一层的关键词只有一个:

全量 + 稳定 + 不着急

所以技术选型一般是:

  • Spark / Flink Batch
  • Hive / HDFS / Lakehouse
  • TensorFlow / PyTorch 离线训练

2️⃣ 一个很真实的例子:Embedding 离线训练

比如用户-物品 Embedding,离线训练完之后:

# 伪代码:离线训练 user/item embeddingmodel=MatrixFactorization(user_cnt=num_users,item_cnt=num_items,dim=128)model.fit(user_item_interactions)# 训练完成后导出 embeddinguser_embeddings=model.get_user_embedding()item_embeddings=model.get_item_embedding()

关键点不是代码,而是输出物:

  • user_id → 向量
  • item_id → 向量

👉这些向量,是后面在线召回和排序的“弹药库”。


三、在线召回:推荐系统的“第一道生死线”

1️⃣ 为啥一定要有召回?

你想象一个极端情况:

  • 1 亿用户
  • 1 千万内容

你如果在线直接算:

1 个用户 × 1000 万内容 = 1000 万次打分

老板会很冷静地告诉你一句话:

“你这是在做压力测试,不是在做推荐。”

所以召回的核心目标只有一个:

从海量内容中,秒级挑出几十到几百个“可能有戏”的候选。

2️⃣ 常见的召回方式(不追求多,只追求稳)

现实项目里,召回基本都是多路并行

  • 协同过滤召回
  • Embedding 向量召回
  • 热门 / 新品 / 活跃召回
  • 规则召回(关注、订阅、地理位置)

比如一个非常典型的向量召回:

defrecall_by_embedding(user_embedding,item_index,top_k=200):# ANN 检索(FAISS / HNSW)item_ids=item_index.search(user_embedding,top_k)returnitem_ids

召回层最大的 KPI 不是“准”,而是“不漏”。

这句话很重要。

很多新人一上来就追求召回精准度,结果把后面排序的空间全杀死了。


四、在线排序:真正决定“点不点”的地方

1️⃣ 排序模型才是离用户最近的“刀锋”

召回只是“候选”,排序才是:

谁在第 1 位,谁直接凉。

排序模型的输入,通常是:

  • 用户特征
  • 物品特征
  • 上下文特征(时间、设备、位置)
  • 用户 × 物品的交叉特征

一个极简示意:

defrank(user,candidates):features=build_features(user,candidates)scores=ranking_model.predict(features)returnsorted(candidates,key=lambdax:scores[x],reverse=True)

2️⃣ 为什么排序一定是在线的?

因为排序要用的东西太“新”了:

  • 刚点过什么
  • 当前时间段
  • 最近几分钟行为
  • 实时上下文

这些东西:

等你离线算完,用户都下一个 App 了。

所以排序模型一定是:

  • 轻量
  • 可快速推理
  • 延迟可控

五、这套架构真正的难点,其实不在算法

说点掏心窝子的。

我见过太多团队:

  • 模型写得很漂亮
  • 论文指标很好看
  • 线上效果却一塌糊涂

问题往往出在这几件事上:

1️⃣ 离线和在线特征不一致

离线训练用 A 特征,在线服务用 B 特征

这是推荐系统里最经典、也最隐蔽的坑。

解决思路只有一个:

  • 特征工程平台化
  • 一套代码,多端复用

2️⃣ 召回太“保守”

怕脏、怕噪声、怕误点,结果:

召回池里全是“老熟人”,系统越来越无聊。

我个人非常认同一句话:

推荐系统一定要“允许犯错”,否则永远不会进化。


3️⃣ 架构不是越复杂越好

不是所有团队都需要:

  • 10 路召回
  • 3 层排序
  • 强化学习在线调参

很多时候:

一套干净、可解释、稳定的架构,胜过一堆花活。


六、写在最后:推荐系统其实很“人性化”

做久了你会发现,推荐系统不像传统算法那么“冷”。

它更像一个人:

  • 离线训练 = 复盘昨天
  • 在线召回 = 快速想起可能的选项
  • 在线排序 = 临场判断

真正好的推荐系统,不是“算得最准”,而是:

在算力、延迟、业务目标之间,找到那个最现实的平衡点。

http://www.jsqmd.com/news/314113/

相关文章:

  • Claude Code子代理实战:10个即用模板分享
  • 老板必须懂的财税常识
  • 2_6_五段式SVPWM(经典算法+DPWM2)算法理论与MATLAB实现详解
  • 2009-2022年中国审计年鉴面板数据
  • 2020-2025年国考岗位成绩汇总表
  • 供应 日置 HIOKI 3275 AC/DC钳式电流探头 带箱子
  • 力科 CP030A 30A, 50MHz,1mA/div 电流探头
  • 基于SpringBoot+Vue的养老院管理系统(源码+lw+部署文档+讲解等)
  • 基于SpringBoot+Vue+web的智能家教服务平台设计与实现(源码+lw+部署文档+讲解等)
  • 【绩效域】核心考点汇总
  • Keysight 85033E 是德科技85033E网络校准件
  • AI Agent革命:大模型不再是聊天玩具,而是真正的数字劳动力,小白程序员必看!
  • 构建“Git 提交 AI 神器”:从零打通 DeepSeek 混合架构全栈开发
  • 程序员必看!RAG技术揭秘:让你的AI应用知识渊博,不再一本正经地胡说八道!
  • “把事办成“而非“只会聊天“:智能分析Agent如何让大模型真正落地企业场景,小白程序员也能秒变大神!
  • day 15| 10.平衡二叉树 257. 二叉树的所有路径 404.左叶子之和 222.完全二叉树的节点个数
  • 程序员瑟瑟发抖!AI Agent全面接管编程:从“代码写出来“到“代码流出来“,不会用AI的即将被淘汰!
  • ARM汇编语言语法小解
  • 使用 Docker 部署 Clawdbot(官方推荐方式)
  • 宏智树 AI:ChatGPT 学术版驱动,重构学术写作智能新范式
  • 宏智树 AI:AI5.0 驱动的全流程学术创作智能解决方案平台
  • 拒稿率暴跌!宏智树 AI 解锁期刊论文写作新逻辑:不是凑字数,是精准对话编辑部
  • 深度学习篇---CBAM通俗易懂解析
  • 【2026】 LLM 大模型系统学习指南 (27)
  • Power BI + Dify 本地部署:用大模型赋能报表智能分析(保姆级教程)
  • Tyr-[Hu-rasT24]-Lys ;Tyr-Gly-Ala-Val-Gly-Val-Gly-Lys-Ser-Lys
  • Transforming Growth Factor α (human) (TGF α (1-50) (human))
  • 进程级沙箱隔离与WebGL指纹抗识别:指纹浏览器核心技术难点与工程落地
  • 如果生产环境Redis实例CPU使用率很高,比如达到90%以上,请问可能产生的原因有哪些? 如何解决?
  • POE交换机全方位解读