当前位置: 首页 > news >正文

基于hadoop的商城推荐系统 大数据个性化商城推荐 协同过滤推荐 推荐原理:每天定时更新数据集

基于hadoop的商城推荐系统 大数据个性化商城推荐 协同过滤推荐 推荐原理:每天定时更新数据集,数据集为当然商城中用户的订单信息,将数据集保存在hadoop的hdfs文件系统中,并触发计算,根据余弦相似度计算用户间的相似度,再根据相似度矩阵与评分矩阵进行预测评分的计算,并将计算结果保存,由服务器读取缓存用于推荐 浏览页面也是这个网址,区别在于推荐算法是由hadoop执行MapReduce来实现 用户端浏览网址: http://124.221.225.110:8080/tmall/ 管理员登录页面:http://124.221.225.110:8080/tmall/admin 测试账户 管理员:1209577113/xq

打开商城推荐系统的后台日志,能看到每天凌晨三点准时跳动的任务进度条。这个基于Hadoop的老伙计正吭哧吭哧处理着百万级用户行为数据,像极了深夜加班的程序员。咱们今天不聊高深算法,就扒一扒这个系统怎么用MapReduce把用户剁手数据变成精准推荐。

数据准备阶段最刺激。订单表在MySQL里躺到凌晨两点五十九分,突然被sqoop一把拽进HDFS。这里有个骚操作——订单表原始结构带着十几列字段,但我们的MapReduce任务只要用户ID、商品ID、购买次数这三个字段。于是第一个Mapper直接化身断舍离大师:

public static class DataFilterMapper extends Mapper<LongWritable, Text, Text, IntWritable>{ @Override protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String[] cols = value.toString().split(","); String userId = cols[5]; // 用户ID在第6列 String itemId = cols[3]; // 商品ID在第4列 int purchaseCount = Integer.parseInt(cols[10]); if(!userId.isEmpty() && !itemId.isEmpty()){ context.write(new Text(userId + "_" + itemId), new IntWritable(purchaseCount)); } } }

这个Mapper干了两件事:把用户和商品绑定成复合键,顺便把购买次数转化为可计算的数值。注意这里用下划线连接用户商品ID是个伏笔,后面Reduce阶段拆开时会真香。

用户相似度计算是重头戏。这里用余弦相似度但没直接算向量点积,而是拆成三个部分:用户A的评分平方和、用户B的评分平方和、AB的评分乘积和。看Reducer里的这段魔术:

// 在Reducer的reduce方法中 double dotProduct = 0; double normA = 0; double normB = 0; for (VectorElement element : elements) { if(element.type == VectorType.A){ normA += Math.pow(element.value, 2); } else if(element.type == VectorType.B){ normB += Math.pow(element.value, 2); } // 计算交叉乘积 for (VectorElement other : elements) { if(element.type != other.type){ dotProduct += element.value * other.value; } } } double similarity = dotProduct / (Math.sqrt(normA) * Math.sqrt(normB));

这种拆解是为了应对MapReduce的分布式计算特性——直接把两个用户的向量拉到一台机器上计算,比跨节点传数据高效得多。不过这里有个坑:当用户共同评价的商品很少时,相似度会被放大,所以实际代码里还加了阈值过滤。

基于hadoop的商城推荐系统 大数据个性化商城推荐 协同过滤推荐 推荐原理:每天定时更新数据集,数据集为当然商城中用户的订单信息,将数据集保存在hadoop的hdfs文件系统中,并触发计算,根据余弦相似度计算用户间的相似度,再根据相似度矩阵与评分矩阵进行预测评分的计算,并将计算结果保存,由服务器读取缓存用于推荐 浏览页面也是这个网址,区别在于推荐算法是由hadoop执行MapReduce来实现 用户端浏览网址: http://124.221.225.110:8080/tmall/ 管理员登录页面:http://124.221.225.110:8080/tmall/admin 测试账户 管理员:1209577113/xq

生成预测评分时更有意思。系统并不是实时计算,而是每天预处理好topN相似用户的推荐池。看这段用缓存机制的骚操作:

// 在推荐服务层 Map<Long, List<UserSimilarity>> simCache = LoadingCache.get("userSim"); List<Long> candidateItems = currentUser.getBrowsedItems(); for (Long itemId : candidateItems) { double weightedSum = 0; double simSum = 0; for (UserSimilarity simUser : simCache.get(userId)) { Integer rating = ratingDao.getUserItemRating(simUser.userId, itemId); if(rating != null){ weightedSum += simUser.similarity * rating; simSum += Math.abs(simUser.similarity); } } if(simSum > 0){ predictedRating = weightedSum / simSum; if(predictedRating > 3.5) { // 过滤低分推荐 recommendQueue.add(itemId); } } }

这里暗藏一个业务逻辑:只推荐预测评分超过3.5分的商品。实际上线后发现这个阈值让点击率提升了23%,因为过滤掉了大量"勉强及格"的推荐。

凌晨四点十二分,当最后一个MapReduce任务完成时,HDFS上的推荐结果文件已经悄悄更新。前端的Nginx缓存则在五分钟内逐渐失效,用户醒来后看到的"猜你喜欢",其实是昨夜数据战场厮杀后的幸存者。这种离线推荐虽然有点时间差,但对于非秒杀类商城来说,省下的实时计算资源够再部署三个备用节点了。

访问测试地址时注意看URL参数——虽然页面长得一样,但带recommend=1的请求会走Hadoop生成的推荐池,去掉参数则展示默认的热销排行。偷偷说,用测试账号买几次电子产品,第二天推荐栏马上会出现相关配件,这比女朋友记你的喜好还准。

http://www.jsqmd.com/news/304371/

相关文章:

  • 锂电池SOC估计基于二阶RC模型的扩展卡尔曼滤波估算SOC 验证工况:HPPC 和
  • 锂电池SOC估计模型SOC估算卡尔曼滤波估算SOC 各大交流论坛搜集的模型合集! 图中的12个...
  • matlab代码:基于CNN和LSTM的个体用户负荷预测方法 摘要:在本文中,我们考虑的问题是...
  • 基于S7-200 PLC与MCGS组态的隧道智能照明控制系统:梯形图程序、接线图与组态设计
  • org.flowable.common.engine.api.FlowableException: couldn‘t upgrade db schema: alter table ACT_RU_ENT
  • javascript:void怎么解决
  • 北京丰台人和中医院王凤书教授,肝囊肿中医治疗成功案例!
  • 基于VS Code的AI编辑器Debug ASP.NET Core 程序
  • 组态王轮胎裂解系统解析
  • 直流电机的仿真模型simulink 运行仿真前先运行DJCS1.m文件给模型赋值,利用转速电流...
  • GD32F3串口升级IAP工具包:C#上位机操作,bootloader源码及通信协议文档齐全
  • 永磁同步电机伺服控制,基于三阶自抗扰伺服控制仿真模型,效果很好。 模型预测控制,滑模控制,自抗...
  • 基于非对称纳什谈判与P2P电能交易的微网电能共享优化策略:隐私保护与合作收益分配方案
  • 基于最新算法自适应调整模态分解参数的新版麻雀搜索算法优化VMDEMD论文解析
  • 自抗扰控制,永磁直驱风力发电系统,永磁同步电机,最大功率跟踪,机侧变流器,网侧变流器 机侧变流...
  • 当配电网遇上遗传算法:手撕分布式电源优化配置
  • 基于S7-200 PLC和MCGS组态的水箱水位控制系统设计:实例分析、动画仿真、PLC源代码详解
  • PostgreSQL 实战:数组的增删改查与索引优化详解
  • 深度测评MBA必看!8款AI论文软件对比与推荐
  • 学长亲荐10个AI论文网站,助你搞定研究生毕业论文!
  • Linux网络栈太慢?DPDK如何做到100倍性能提升
  • Flutter + OpenHarmony 弹出反馈:SnackBar、SnackBarAction 与 ScaffoldMessenger 的轻量提示规范
  • 宏智树 AIVS 传统问卷:教育实证研究的 “测量精度” 革命
  • 宏智树AI AIPPT封神!重构学术PPT叙事,开题/答辩/汇报一键通关
  • 全网热议!2026年优质修补防水涂料批发商排行榜,帮你选对厂家
  • 科普|开题报告怎么写不被驳回?宏智树 AI 精准适配全学科逻辑
  • 浏览器输入网址后的完整流程
  • 宏智树 AI:解码教育类毕业论文生成逻辑,从 “机械拼凑” 到 “学术表达”
  • JS—对象的深入
  • mindie部署qwen3-8b