当前位置: 首页 > news >正文

小红书推荐系统实战:除了双塔模型,这3种召回策略(地理位置/作者/缓存)你了解吗?

小红书推荐系统实战:3种工业级召回策略深度解析

在推荐系统的战场上,召回层就像一位不知疲倦的侦察兵,它的任务是从海量内容中快速筛选出可能吸引用户的候选集。提起召回策略,大多数人会立刻想到双塔模型、协同过滤这些"明星算法",但真正决定推荐系统实战效果的,往往是那些被低估的"战术级"策略。今天我们就以小红书为例,解剖三种工业界高频使用但鲜少被深入讨论的召回策略——地理位置召回、作者召回和缓存召回。这些策略看似简单,却在实战中发挥着四两拨千斤的作用。

1. 地理位置召回:当"附近"成为推荐黄金法则

在本地生活场景中,用户对"附近发生什么"的关心程度远超想象。小红书通过地理位置召回策略,巧妙地将物理距离转化为推荐系统的竞争优势。

1.1 GeoHash编码:地理位置的数字护照

GeoHash算法将二维的经纬度坐标转换为一维字符串,这种编码具有以下关键特性:

  • 层级结构:字符串越长表示精度越高(如wx4gwx4更精确)
  • 前缀匹配:相同前缀的GeoHash表示地理位置相近
  • 快速检索:可用B+树等数据结构高效建立索引

小红书实际应用中的GeoHash索引结构示例:

GeoHash前缀覆盖区域笔记数量最新更新时间
wx4g3北京朝阳区CBD1,2432023-08-15
wx4g8北京海淀区中关村8922023-08-14

提示:GeoHash召回的关键是平衡精度与召回量,通常选择6-8位字符长度,对应约100-1000米范围

1.2 同城召回的社交增强效应

相比精确的GeoHash召回,同城召回采用更粗粒度的城市维度,其独特价值在于:

  1. 内容新鲜度保障:优先展示24小时内发布的同城笔记
  2. 地域文化契合:自动匹配方言、本地习俗等文化特征
  3. 潜在社交连接:增加同城用户间的互动可能性

实际业务中,这两种策略常配合使用:

def location_based_recall(user): recalls = [] if user.geo_hash: recalls += geo_hash_recall(user.geo_hash, limit=50) if user.city: recalls += city_recall(user.city, limit=30) return remove_duplicates(recalls)

2. 作者召回:构建内容生态的社交图谱

在小红书这样的UGC平台,作者与用户的关系远不止"内容生产者-消费者"这么简单。优秀的作者召回策略能同时提升内容分发效率和用户粘性。

2.1 关注作者召回:社交关系的温度传递

关注作者召回的核心在于两个实时更新的倒排索引:

  1. 用户-作者索引:记录每个用户关注的所有作者
  2. 作者-笔记索引:按发布时间倒序存储作者内容

这种策略的独特优势包括:

  • 即时性:新内容发布后立即进入关注者候选池
  • 信任传递:用户对作者的信任会自然延伸到其内容
  • 创作激励:为优质作者提供稳定的流量入口

2.2 交互作者召回:发现潜在兴趣的雷达

当用户与作者产生"轻互动"(点赞/收藏/评论)但未关注时,交互作者召回就发挥作用了。其技术实现要点包括:

  • 时间衰减权重:最近交互的权重高于历史交互
  • 行为类型加权:收藏 > 评论 > 点赞
  • 滑动窗口机制:只保留最近30天的交互记录

交互作者相似度计算示例:

def author_similarity(author1, author2): # 基于共同粉丝的Jaccard相似度 followers1 = set(get_followers(author1)) followers2 = set(get_followers(author2)) intersection = followers1 & followers2 union = followers1 | followers2 return len(intersection) / len(union)

2.3 相似作者召回:兴趣的涟漪效应

相似作者召回扩展了用户的兴趣边界,其核心是构建作者相似度图谱。工业界常用三种计算方式:

  1. 基于粉丝重合度:如上述Jaccard相似度
  2. 基于内容embedding:用BERT等模型提取文本特征
  3. 基于协同过滤:将作者视为特殊"物品"计算相似度

3. 缓存召回:精排结果的二次利用艺术

在推荐系统链路中,精排阶段计算成本最高,缓存召回就是为了最大化精排结果的利用率。

3.1 缓存机制设计要点

小红书采用的混合缓存策略包含以下关键设计:

  • 动态准入标准

    • 精排Top50未曝光内容自动进入缓存
    • 高CTR内容优先保留
    • 新发布内容获得加权
  • 智能淘汰机制

    def check_evict(cached_item): if cached_item.exposed: # 已曝光立即淘汰 return True if cached_item.recall_count >= 10: # 达到召回次数上限 return True if time.now() - cached_item.enter_time > 3*24*3600: # 超过3天 return True return False

3.2 缓存召回的业务价值

这种策略创造了三重价值:

  1. 资源利用率提升:精排计算成本降低30-40%
  2. 长尾内容曝光:给优质但低流量内容更多机会
  3. 用户体验平滑:避免每次刷新结果差异过大

4. 策略组合与系统协同

真正的工业级推荐系统从不是单打独斗,而是多种策略的有机组合。这些召回策略如何与双塔模型协同工作?

4.1 多路召回融合架构

小红书的典型召回层实现流程:

  1. 并行召回:各策略同时执行
  2. 去重合并:基于笔记ID去重
  3. 动态加权:根据实时反馈调整各路线权重
  4. 粗排过滤:用轻量模型初步筛选

4.2 策略权重分配艺术

不同场景下的策略权重配置示例:

场景类型地理位置权重作者权重缓存权重双塔权重
新用户冷启40%30%10%20%
老用户活跃15%50%20%15%
节假日运营25%25%30%20%

注意:实际权重需要根据AB测试结果动态调整,此表仅为示例

在项目实践中,我们发现当作者召回与缓存召回配合使用时,用户停留时长平均提升17%。特别是在美食和旅行类目中,地理位置召回带来的转化率比普通内容高出3-5倍。

http://www.jsqmd.com/news/741285/

相关文章:

  • 大语言模型在心理健康领域的应用与实践
  • 2026年当前填充珍珠棉品牌深度解析与选购指南 - 2026年企业推荐榜
  • 别再只用2F服务了!聊聊UDS诊断中31服务(RoutineControl)那些更复杂的应用场景
  • 四神系统:为AI编程助手构建模块化心智框架
  • Degrees of Lewdity汉化版:3分钟快速上手中文体验指南
  • 2026东莞螺丝CNC车件技术分享:东莞螺丝精密轴/东莞螺丝销轴/东莞非标螺丝/东莞高精密螺丝/东莞异形螺丝/东莞微型螺丝/选择指南 - 优质品牌商家
  • 如何一键检测微信单向好友:终极社交关系清理指南
  • ctfileGet终极指南:快速获取城通网盘直连地址的完整方案
  • 从零到报告:用Python Playwright写你的第一个Web自动化测试,并用pytest和Allure生成漂亮报告
  • 大语言模型记忆管理:MEMMA架构设计与实践
  • 告别VSCode无限下载!一份为Unity开发者定制的C#插件与.NET环境避坑指南
  • MeViS数据集与LMPM++:多模态视频运动分割技术解析
  • 云盘文件直链获取方案:LinkSwift技术实现与应用实践
  • LangChain Prompt Templates实战:从Hub加载到自定义,打造你的提示词库
  • 2026年湖南高压电机绝缘在线检测仪采购指南:智能、可靠与本地化服务 - 2026年企业推荐榜
  • AI教材编写秘籍:揭秘低查重AI写教材工具,一键搞定20万字教材!
  • 2026饮料瓶洗瓶机技术解析:组培瓶洗瓶机/自动化清洗瓶机/啤酒瓶洗瓶机/回收瓶洗瓶机/实验室洗瓶机/毛刷式洗瓶机/选择指南 - 优质品牌商家
  • 2026年4月河北隐形井盖产业格局解析与源头工厂推荐 - 2026年企业推荐榜
  • 2026年研究生学位论文降AI攻略:硕士博士论文高标准降AI分章处理完整方案
  • 绝区零一条龙终极指南:如何用AI助手每天节省1小时游戏时间
  • 2026 年中国 GEO 优化公司综合实力 TOP5 权威榜单及企业选型指南 - GEO优化
  • 2026年现阶段安徽市场如何甄选靠谱的玻璃钢格栅批发厂家?河北腾森深度解析 - 2026年企业推荐榜
  • 别再手动记日志了!用Python logging模块给你的PyTorch/TensorFlow训练过程做个‘自动秘书’
  • 2025最权威的六大AI写作平台横评
  • 扩散模型视觉一致性评估与特征解耦实践
  • 保姆级调试:用adb shell am stack list分析车机多窗口Activity的显示层级
  • FusionRoute:令牌级路由协作框架解析与应用
  • 2026年4月更新:安徽图文印刷服务商推荐——京东图文 - 2026年企业推荐榜
  • 别再问客服了!手把手教你用Python+OpenCV计算无人机照片里任意区域的真实面积
  • 从PyTorch到TRT引擎:用trtexec命令行工具实现ONNX模型推理速度翻倍(Windows10实测)