当前位置: 首页 > news >正文

学习进度 14

repartition和coalesce,终于分清了两者的区别和适用场景。repartition会重新洗牌数据,可以任意增加或减少分区数,适合数据分布不均、需要彻底重新分区的场景,但因为有 Shuffle,性能开销稍大;coalesce不会洗牌数据,只能减少分区数(强行增加分区数无效),直接合并现有分区,性能更高,适合任务后期数据量大幅减少、只需精简分区的场景。实操时用之前的用户数据测试,把初始 10 个分区用repartition(5)和coalesce(5)分别处理,查看执行计划发现,前者有 Shuffle 步骤,后者没有,运行时间也差了近一倍。还学会了根据数据量和集群核心数合理设置分区数,一般按 “核心数 ×2~3” 来定,既不会因分区太少导致任务并行度低,也不会因分区太多增加调度开销。
接着重点解决数据倾斜问题,这是之前跑大数据量任务时遇到的痛点 —— 部分 Task 运行时间特别长,其余 Task 很快完成,导致整个任务卡在最后几步。查资料结合实操,搞懂了数据倾斜的核心原因:某几个 Key 的数据量远大于其他 Key,导致对应分区的任务压力过大。今天试了两种新手易上手的解决方法,效果都很明显:一是随机前缀法,给倾斜 Key 加随机前缀(如 0-9),让原本集中的 Key 分散到不同分区,计算完成后再去掉前缀合并结果,适合聚合类任务;二是过滤倾斜 Key,如果部分倾斜 Key 是无效数据(如空值、异常值),直接用filter过滤,能快速解决问题。实操时针对薪资统计中 “未知城市” 这个倾斜 Key,先加随机前缀做聚合,再合并,原本卡了 5 分钟的任务,调优后 1 分钟就完成了,效果立竿见影。还结合之前学的窗口函数做了调优实操,发现窗口函数的partitionBy字段如果选得不好,也会导致数据倾斜。比如按 “性别” 分区,男女数据量相差悬殊,后续排名任务就会卡顿,换成按 “城市 + 性别” 联合分区后,数据分布均匀,任务执行效率大幅提升。
http://www.jsqmd.com/news/322842/

相关文章:

  • Java零基础程序员必看,1小时速通SpringAIalibaba,搞定企业刚需技术,offer拿到手软!
  • 【毕业设计】基于SpringBoot+Vue的甜品店管理系统设计与实现(源码+文档+远程调试,全bao定制等)
  • Java毕设选题推荐:基于web甜品店管理系统基于SpringBoot+Vue的甜品店管理系统设计与实现【附源码、mysql、文档、调试+代码讲解+全bao等】
  • Java计算机毕设之基于SpringBoot+Vue的甜品店管理系统设计与实现基于web甜品店管理系统(完整前后端代码+说明文档+LW,调试定制等)
  • 【概念板块和行业板块】【股市交易规则】
  • 2026大模型学习路线图:从零基础到精通,收藏这份超全指南,小白也能快速上手!
  • 计算机Java毕设实战-基于SpringBoot+Vue的甜品店管理系统设计与实现基于SpringBoot+Vue+MySQL的甜品店管理系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • clawdbot (openclaw) + discord 机器人部署指南学习教程
  • Java毕设选题推荐:基于MyBatis的在线车辆租赁信息管理系统的设计与实现基于SpringBoot+Vue的汽车租赁管理系统管理系统设计与实【附源码、mysql、文档、调试+代码讲解+全bao等】
  • 0x3f 第47天 复习 9:24-10:24
  • 计算机Java毕设实战-基于springboot的Mybatis在线车辆汽车租赁信息管理基于MyBatis的在线车辆租赁信息管理系统的设计与实现【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • Java毕设项目:基于SpringBoot+Vue的甜品店管理系统设计与实现(源码+文档,讲解、调试运行,定制等)
  • 英伟达开放物理AI模型助力机器人与自动驾驶发展
  • 米尔:新法规欧标AC桩一站式技术实现方案
  • 【毕业设计】基于MyBatis的在线车辆租赁信息管理系统的设计与实现(源码+文档+远程调试,全bao定制等)
  • 行空板入门笔记
  • 【计算机毕业设计案例】基于 Spring Boot+MySQL 的汽车租赁管理系统设计与实现基于MyBatis的在线车辆租赁信息管理系统的设计与实现(程序+文档+讲解+定制)
  • OpenClaw(Clawdbot)云服务器上安装部署指南!特别适合新手的保姆级教程
  • 百度文库PPT深度实测:GenFlow3.0赋能下的教育办公利器
  • Java实战|BaseDao通用数据库访问层封装(JDBC简化神器,直接复用)
  • 告别熬夜做PPT!2026新手必备AI生成工具榜单,小白也能秒变高手
  • 2026年1月人源化小鼠服务商推荐TOP8:基于技术平台与认证资质的综合评测
  • 深度解析|云蝠智能大模型呼叫系统架构:神鹤双擎 + 暴风引擎,低延迟高并发解锁呼叫中心降本增效新路径
  • 国内主流 AI 大模型全景解析:特性、落地与发展趋势
  • 目前市场上哪些回收平台对大额中石化加油卡交易最可靠?
  • 告别PPT加班!12个高性价比PPT网站合集,免费付费AI款全拿捏
  • 彼得林奇对公司研发投入的分析标准
  • 智能体来了(西南总部)说明:AI Agent 指挥官与 AI 调度官并不是同一个角色
  • 题解:P3527 [POI 2011] MET-Meteors
  • 全网热议!2026年户外用无纺布公司推荐:值得关注的八大品质产品