当前位置: 首页 > news >正文

Partition分区

there are concerpt of partition both in hdfs and spark, but they servers for different purpose

In hdfs


为了存储效率
let's say there is a table named 'order'
we partition it by order_month, then the file struture may like:

  • order/
    • order_month=202511/

      • block1 128mb
      • block2 127mb(不一定满)
      • block3 24mb
    • order_month=202512/

      • block1 128mb
      • block2 24mb

此时如果查询条件where order_month = '202511', 那么只需要读取'order_month=202512/'这个分区下的数据文件就可以了

分区时,需要特别注意处理数据倾斜(data skew) --min/25th/mid/75th/max

hdfs中数据是以一个个block来存储的,单个block文件最大容量,默认128MB(参数控制)
当向hdfs写入一个大文件(超过128MB),那么该大文件会被拆分为多个block文件,如200MB,分成128MB + 72MB
当向hdfs写入一个小文件(未超过128MB),那么该小文件会被单独存储
128MB通常不会完全的用满,因为不能打一行或者一列数据拆到两个文件

分区文件会被备份多份(默认3份),分散在集群节点中

In spark


为了计算效率,而且可以在运算过程中动态改动

当spark读取数据时,会将数据分拆或者合并成多个分区,分别交给多个task,以便并行执行,提高效率
分区策略:

  • 单个分区最大数据量,如128MB,那么如果一个源文件200MB的话,则会被拆成2份,128+72,分别放到2个task去执行
  • 并行度,解设并行度为4,
    • 如果此时只有两个小文件,22MB + 3MB,那么不会合并文件
    • 如果此时有5个文件,128MB, 128MB, 88MB, 22MB, 3MB,那么会合并小文件,最终分区4个分区,分别放到4个task去执行
  • 单个stage的task数量由该stage的最后一个步骤决定

spark的dataframe写入文件时,一个分区生成一个文件,5个分区的话,则最终会生成5份数据文件。如果有要求只能生成一个文件,则需要执行repartition合并成1个分区

http://www.jsqmd.com/news/786115/

相关文章:

  • 2026年福清市游戏本回收市场盘点:如何甄选正规靠谱的回收服务商? - 2026年企业推荐榜
  • MAGE框架:诊断教育评估任务对AI的脆弱性,重塑批判性思维考核
  • 2026年现阶段,海口企业注册如何选对代办机构?深度解析与专业推荐 - 2026年企业推荐榜
  • 2026年当下,如何甄选高性价比的长沙开荒保洁团队:一份专业选型指南 - 2026年企业推荐榜
  • SVEAD框架:融合VAE与SHAP的可解释异常检测实践
  • 系统中文件管理—计算机等级—软件设计师考前备忘录—东方仙盟
  • 调整 DeepSeek 模型 temperature 和 top_p 参数对生成质量的影响对比
  • 品玩5月9日消息:阶跃星辰推实时语音大模型 StepAudio 2.5,实现语音交互全面突破
  • CANN/TensorFlow HCCL接收操作
  • 2026年Q2电磁先导头采购决策:关键考量维度与实力厂商推荐 - 2026年企业推荐榜
  • 远程连MySQL还靠装工具?UU远程端口映射,一条规则搞定
  • 基于随机化训练与动态记忆库的AI持续学习系统设计与实现
  • Python if-elif-else 设计陷阱与企业级决策流实践
  • 使用Taotoken稳定低延迟API提升蓝桥杯模拟测试体验
  • Dify工作流无缝对接AI助手:基于MCP协议的自动化集成方案
  • OpenAI推“可信联系人”功能,应对自杀诱导诉讼构建安全保障体系
  • 2026年现阶段宿州打包箱品牌专业选择与深度剖析 - 2026年企业推荐榜
  • 分布式数据库透明—计算机等级—软件设计师考前备忘录—东方仙盟
  • APIO 2026 中国赛区 cake
  • 工业踩坑实录(十七):从40分到高分:工业零件OCR,通用模型一上来就给我打脸
  • CANN/hcomm 通道状态查询
  • 2026年5月新消息:徐州华杰高级中学江苏南通班为何成为淮海经济区教育新标杆 - 2026年企业推荐榜
  • EdgeCrab:用Rust构建的高性能AI智能体,重塑自动化工作流
  • 2026现阶段朝阳区旧空调回收服务商深度**:如何精准选择靠谱伙伴? - 2026年企业推荐榜
  • ChatGPT 5.5 Pro一小时攻克博士级数学难题,引发数学研究范式变革
  • 大模型参数规模与通用能力:非线性增长、性能瓶颈与工程实践
  • CANN/ops-math 一维边缘填充算子
  • DouyinLiveRecorder:一键录制40+平台直播的终极解决方案
  • 2026年南京浦口区实木公寓床供应商甄选指南 - 2026年企业推荐榜
  • 4月28日隐喻“鲸鱼开眼”,DeepSeek识图模式灰度上线,迈入图文交互时代!