当前位置：首页 > news >正文

推荐系统为啥都长一个样？聊聊「离线训练 + 在线召回 + 排序」这套大数据架构

news 2026/3/26 18:21:48

推荐系统为啥都长一个样？聊聊「离线训练 + 在线召回 + 排序」这套大数据架构

如果你干过推荐系统，不管是内容推荐、电商、广告、资讯、短视频，大概率都会发现一件事：

架构看起来都差不多，但效果差距却能差出一个银河系。

我这些年看过、拆过、踩过的推荐系统不算少，越到后面越有一个感受：

推荐系统拼到最后，真不是算法多高级，而是架构是不是“拧得顺”。

今天我们就掰开揉碎，聊聊这套最经典、也最现实的推荐系统架构：

离线训练 + 在线召回 + 在线排序

一、先说结论：为啥推荐系统一定要拆成三段？

一句话总结：

不是为了优雅，而是为了活命。

推荐系统天然就有三大矛盾：

数据量巨大（全量用户 × 全量物品）
实时性要求极高（几十毫秒内给结果）
模型又想越复杂越好

这三件事，你想一锅端，结果只有一个：
👉系统崩、效果差、老板不开心

所以业界最终形成了一个非常“工程味”的共识架构：

离线：负责“想清楚” 在线：负责“跑得快”

拆开来看，就是三段：

离线训练：用大数据慢慢算
在线召回：快速缩小候选集
在线排序：精排出最终结果

二、离线训练：推荐系统真正“聪明”的地方

1️⃣ 离线训练到底在干嘛？

说人话版本：

用昨天甚至更早的数据，训练一个“大概靠谱”的模型。

典型离线任务包括：

用户画像构建
物品画像生成
Embedding 训练（user / item 向量）
召回模型、排序模型训练

这一层的关键词只有一个：

全量 + 稳定 + 不着急

所以技术选型一般是：

Spark / Flink Batch
Hive / HDFS / Lakehouse
TensorFlow / PyTorch 离线训练

2️⃣ 一个很真实的例子：Embedding 离线训练

比如用户-物品 Embedding，离线训练完之后：

# 伪代码：离线训练 user/item embeddingmodel=MatrixFactorization(user_cnt=num_users,item_cnt=num_items,dim=128)model.fit(user_item_interactions)# 训练完成后导出 embeddinguser_embeddings=model.get_user_embedding()item_embeddings=model.get_item_embedding()

关键点不是代码，而是输出物：

user_id → 向量
item_id → 向量

👉这些向量，是后面在线召回和排序的“弹药库”。

三、在线召回：推荐系统的“第一道生死线”

1️⃣ 为啥一定要有召回？

你想象一个极端情况：

1 亿用户
1 千万内容

你如果在线直接算：

1 个用户 × 1000 万内容 = 1000 万次打分

老板会很冷静地告诉你一句话：

“你这是在做压力测试，不是在做推荐。”

所以召回的核心目标只有一个：

从海量内容中，秒级挑出几十到几百个“可能有戏”的候选。

2️⃣ 常见的召回方式（不追求多，只追求稳）

现实项目里，召回基本都是多路并行：

协同过滤召回
Embedding 向量召回
热门 / 新品 / 活跃召回
规则召回（关注、订阅、地理位置）

比如一个非常典型的向量召回：

defrecall_by_embedding(user_embedding,item_index,top_k=200):# ANN 检索（FAISS / HNSW）item_ids=item_index.search(user_embedding,top_k)returnitem_ids

召回层最大的 KPI 不是“准”，而是“不漏”。

这句话很重要。

很多新人一上来就追求召回精准度，结果把后面排序的空间全杀死了。

四、在线排序：真正决定“点不点”的地方

1️⃣ 排序模型才是离用户最近的“刀锋”

召回只是“候选”，排序才是：

谁在第 1 位，谁直接凉。

排序模型的输入，通常是：

用户特征
物品特征
上下文特征（时间、设备、位置）
用户 × 物品的交叉特征

一个极简示意：

defrank(user,candidates):features=build_features(user,candidates)scores=ranking_model.predict(features)returnsorted(candidates,key=lambdax:scores[x],reverse=True)