当前位置: 首页 > news >正文

小文件自动化处理流程

# 1. 查看表的存储目录(先执行show create table your_table;找到LOCATION) hdfs dfs -ls /user/hive/warehouse/your_db.db/your_table/pt=2026-01-06 # 2. 【新增】备份原目录小文件(防止误删,关键!) hdfs dfs -mkdir -p /user/hive/warehouse/your_db.db/your_table/pt=2026-01-06_bak hdfs dfs -cp /user/hive/warehouse/your_db.db/your_table/pt=2026-01-06/* /user/hive/warehouse/your_db.db/your_table/pt=2026-01-06_bak/ # 3. 将小文件合并为一个大文件到本地 hdfs dfs -getmerge /user/hive/warehouse/your_db.db/your_table/pt=2026-01-06/* /tmp/merged_file.txt # 4. 按128MB拆分本地合并文件(生成merged_file_000、merged_file_001...,数字后缀更易读) split -b 128M -d -a 3 /tmp/merged_file.txt /tmp/merged_file_ # 5. 删除原目录的小文件 hdfs dfs -rm /user/hive/warehouse/your_db.db/your_table/pt=2026-01-06/* # 6. 批量上传拆分后的128MB文件到原目录 for file in /tmp/merged_file_*; do hdfs dfs -put $file /user/hive/warehouse/your_db.db/your_table/pt=2026-01-06/ done # 7. 刷新Hive元数据 hive -e "MSCK REPAIR TABLE your_db.your_table;" # 8. 【新增】验证数据完整性(对比合并前后行数,可选但推荐) echo "原数据行数:$(hdfs dfs -cat /user/hive/warehouse/your_db.db/your_table/pt=2026-01-06_bak/* | wc -l)" echo "新数据行数:$(hdfs dfs -cat /user/hive/warehouse/your_db.db/your_table/pt=2026-01-06/* | wc -l)" # 9. 【可选】清理本地临时文件(释放磁盘空间) rm -rf /tmp/merged_file.txt /tmp/merged_file_*
http://www.jsqmd.com/news/212369/

相关文章:

  • 2026大模型风口已至!产品经理学习路线+免费资料,助你月薪30K+,建议收藏!
  • 金属导电涂层双极板垂直比电阻仪
  • C++中的指针与内存管理
  • 双极板材料四探针低阻电阻测试仪
  • Java 程序员如何快速上手浏览器插件开发?一篇文章讲透 Chrome Extension
  • MATLAB实现稀疏编码中的基学习:使用拉格朗日对偶方法带L2范数约束
  • 制码指南:轻松生成文本二维码和文件二维码
  • Build in Public,才是普通人的 AI 之路
  • 速卖通关键词搜索接口深度实战:智能优化与跨境搜索精准化全方案
  • 低代码破局零售电商数字化转型:从流量争夺到效率革命
  • 融云 回顾:「韧性」生长,「邪修」破局
  • 二维码工具是什么?主要有哪几种应用?
  • Doris 开启 Partial Update:实现不存在就插入,存在就更新,NULL 不更新原值
  • 【确认出席】卢勇 上海市数商协会秘书长丨上海·1月14日
  • docker快速部署docker私有仓库
  • AI+敏捷时代,专项测试人员是否还有存在的必要?
  • 成为一名优秀的AI产品经理:2025年AI产品经理必备:大模型产品经理终极学习路线图,一篇就够了!
  • 计算机提示“解析软件包时出现问题”怎么解决?别慌,小白也能看懂的修复指南
  • 口碑好的无轨平车哪家好
  • AtomicBoolean 作用
  • 二进制重构嵌入(Binary Reconstructive Embedding)压缩函数实现详解
  • 和谐哈希(Harmonious Hashing)学习算法详解
  • 印巴的“0”与美委的“0”
  • MATLAB实现谱哈希(Spectral Hashing)编码函数详解
  • 人-AI协同体系的构建
  • MBA必看!9个降AIGC工具推荐,高效应对AI检测
  • 白箱、黑箱到灰箱,神经科学迎来新物种:不再复刻大脑,而是成为大脑的AI代言人
  • Manus 爆火之后,我梳理了现在最火的 10 大 AI 智能体
  • 力扣96 不同的二叉搜索树 java实现
  • 【评委确认】蔡超 泰佩思琦数字化与技术副总裁丨第八届年度金猿榜单/奖项评审团专家