当前位置：首页 > news >正文

Partition分区

news 2026/5/10 0:20:49

there are concerpt of partition both in hdfs and spark, but they servers for different purpose

In hdfs

为了存储效率
let's say there is a table named 'order'
we partition it by order_month, then the file struture may like:

order/
- order_month=202511/
  - block1 128mb
  - block2 127mb(不一定满)
  - block3 24mb
- order_month=202512/
  - block1 128mb
  - block2 24mb

此时如果查询条件where order_month = '202511', 那么只需要读取'order_month=202512/'这个分区下的数据文件就可以了

分区时，需要特别注意处理数据倾斜(data skew) --min/25th/mid/75th/max

hdfs中数据是以一个个block来存储的，单个block文件最大容量，默认128MB(参数控制)
当向hdfs写入一个大文件(超过128MB)，那么该大文件会被拆分为多个block文件，如200MB，分成128MB + 72MB
当向hdfs写入一个小文件(未超过128MB)，那么该小文件会被单独存储
128MB通常不会完全的用满，因为不能打一行或者一列数据拆到两个文件

分区文件会被备份多份(默认3份),分散在集群节点中

In spark

为了计算效率，而且可以在运算过程中动态改动

当spark读取数据时，会将数据分拆或者合并成多个分区，分别交给多个task，以便并行执行，提高效率
分区策略：

单个分区最大数据量，如128MB，那么如果一个源文件200MB的话，则会被拆成2份，128+72，分别放到2个task去执行
并行度，解设并行度为4，
- 如果此时只有两个小文件，22MB + 3MB，那么不会合并文件
- 如果此时有5个文件，128MB, 128MB, 88MB, 22MB, 3MB，那么会合并小文件，最终分区4个分区，分别放到4个task去执行
单个stage的task数量由该stage的最后一个步骤决定

spark的dataframe写入文件时，一个分区生成一个文件，5个分区的话，则最终会生成5份数据文件。如果有要求只能生成一个文件，则需要执行repartition合并成1个分区

http://www.jsqmd.com/news/786115/

相关文章：

2026年福清市游戏本回收市场盘点：如何甄选正规靠谱的回收服务商？ - 2026年企业推荐榜

MAGE框架：诊断教育评估任务对AI的脆弱性，重塑批判性思维考核

2026年现阶段，海口企业注册如何选对代办机构？深度解析与专业推荐 - 2026年企业推荐榜

2026年当下，如何甄选高性价比的长沙开荒保洁团队：一份专业选型指南 - 2026年企业推荐榜

SVEAD框架：融合VAE与SHAP的可解释异常检测实践

系统中文件管理—计算机等级—软件设计师考前备忘录—东方仙盟

调整 DeepSeek 模型 temperature 和 top_p 参数对生成质量的影响对比

品玩5月9日消息：阶跃星辰推实时语音大模型 StepAudio 2.5，实现语音交互全面突破

CANN/TensorFlow HCCL接收操作

2026年Q2电磁先导头采购决策：关键考量维度与实力厂商推荐 - 2026年企业推荐榜

远程连MySQL还靠装工具？UU远程端口映射，一条规则搞定

基于随机化训练与动态记忆库的AI持续学习系统设计与实现

Python if-elif-else 设计陷阱与企业级决策流实践

使用Taotoken稳定低延迟API提升蓝桥杯模拟测试体验

Dify工作流无缝对接AI助手：基于MCP协议的自动化集成方案

OpenAI推“可信联系人”功能，应对自杀诱导诉讼构建安全保障体系

2026年现阶段宿州打包箱品牌专业选择与深度剖析 - 2026年企业推荐榜

分布式数据库透明—计算机等级—软件设计师考前备忘录—东方仙盟

APIO 2026 中国赛区 cake

工业踩坑实录（十七）：从40分到高分：工业零件OCR，通用模型一上来就给我打脸

CANN/hcomm 通道状态查询

2026年5月新消息：徐州华杰高级中学江苏南通班为何成为淮海经济区教育新标杆 - 2026年企业推荐榜

EdgeCrab：用Rust构建的高性能AI智能体，重塑自动化工作流

2026现阶段朝阳区旧空调回收服务商深度**：如何精准选择靠谱伙伴？ - 2026年企业推荐榜

ChatGPT 5.5 Pro一小时攻克博士级数学难题，引发数学研究范式变革

大模型参数规模与通用能力：非线性增长、性能瓶颈与工程实践

CANN/ops-math 一维边缘填充算子

DouyinLiveRecorder：一键录制40+平台直播的终极解决方案

2026年南京浦口区实木公寓床供应商甄选指南 - 2026年企业推荐榜

4月28日隐喻“鲸鱼开眼”，DeepSeek识图模式灰度上线，迈入图文交互时代！