当前位置: 首页 > news >正文

hive分桶表出现错误:The number of buckets for table xxx is 8, whereas the number of files is 16

我们有一个表分成了8桶,今天早上跑批报错了,消息是:

The number of buckets for table xxx is 8, whereas the number of files is 16

上hdfs去查看一下,果然是16个文件。

可是我明明只分8桶,为什么会有16个文件?而且,直接select * from table xxx它又不会出错。
经仔细检查ETL逻辑发现,这个表是增量表,每天会加载一批增量数据过来,以前用的是insert overwrite table xxx select … from xxy union all …的方法,这张表却是insert into table xxx select … from xxy 的方法,说明新增的数据,hive并没有合并到老文件里,只是新加了一个“补丁文件”,导致文件数据增多。修复一个增量sql就解决了。
但是,为什么直接单表select就没问题,而join其它表就有问题了?还得研究。

http://www.jsqmd.com/news/244969/

相关文章:

  • Android16 设置AP热点不自动关闭和热点默认设置5G
  • 部署DNS主从服务器
  • 特性与反射总结
  • linux主机安全加固指南!
  • AI agents协作分析社交网络:评估公司的社会影响力
  • 大规模语言模型在自动诗歌创作中的探索
  • 亲测好用!10款一键生成论文工具测评:本科生毕业论文必备清单
  • AI应用架构师必知:优化AI系统故障诊断的方案
  • AUTOSAR如何自动化生成BSW、RTE、AP模块并进行一致性校验?
  • SRAM 芯片容量计算及常见型号速查表
  • 计算机毕业设计springboot互联网就医系统 基于Spring Boot的互联网医疗服务平台设计与实现 Spring Boot框架下的在线医疗系统开发与应用
  • 救命神器8个AI论文工具,专科生搞定毕业论文+格式规范!
  • 【卫星】全球导航卫星系统GNSS中的欺骗与欺骗检测算法,模拟载体在正常GNSS导航和GNSS欺骗攻击下的运动状态,通过IMU+GNSS融合定位,最终实现欺骗检测与结果分析附matlab代码
  • 单片机基础知识 -- HADDR
  • 深度测评 自考必备 9款一键生成论文工具TOP9推荐
  • 【电力系统】基于混合粒子群优化-禁忌搜索优化在光伏丰富的配电网络中用于优化电池储能系统的位置、容量和调度附matlab代码
  • 一次内网开发环境访问方式的改进实践:使用 FRP 替代远程桌面
  • 在Markdown文档中添加目录的方法
  • 计算机网络经典问题透视:媒体播放器与媒体服务器的AB面
  • MySQL事务隔离级别:从并发混乱到数据一致性守护者
  • 巴西木培养养护的原则
  • 2025_NIPS_Follow-the-Perturbed-Leader Nearly Achieves Best-of-Both-Worlds for the m-Set Semi-Bandit
  • 进阶-存储过程3-存储函数
  • 2025_NIPS_Follow-the-Perturbed-Leader Nearly Achieves Best-of-Both-Worlds for the m-Set Semi-Bandit
  • 模组日志技术体系介绍 !
  • 一文彻底搞懂机器学习评估之“留出法”:从理论、实践到陷阱的深度剖析
  • 进阶-存储对象4-触发器
  • 大数据实战:如何构建高效的大数据处理平台?
  • 人工智能入门教程
  • 进阶-锁章节