当前位置：首页 > news >正文

Hive 的四表类型

news 2026/7/3 3:10:28

一、内部表（Managed Table）
什么是内部表？
内部表是 Hive 的默认表类型，它的元数据（存储在 MySQL 中）和数据文件（存储在 HDFS 上）完全由 Hive 自身管理。

创建内部表
CREATE TABLE student (

id INT,

name STRING,

age INT

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

核心特性
• 内部表完全由 Hive 管理（元数据 + 数据文件）
• 使用 LOAD DATA 加载数据时，数据文件会被移动到 Hive 仓库目录
• 删除内部表时，元数据和数据文件都会被删除
二、外部表（External Table）
什么是外部表？
外部表允许 Hive 访问存储在 HDFS 上但不属于 Hive 仓库目录的数据。外部表的元数据由 Hive 管理，而数据文件则由 HDFS 管理。

创建外部表
CREATE EXTERNAL TABLE external_student (

id INT,

name STRING,

age INT

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

LOCATION '/user/data/student';

核心特性
• 元数据由 Hive 管理，数据文件由 HDFS 管理
• 删除外部表时，只删除元数据，数据文件仍然保留
• 数据更加安全，不会因误删表而导致数据丢失
三、内部表 vs 外部表（面试高频题 🔥）
对比维度

内部表（Managed Table）

外部表（External Table）

管理范围

元数据 + 数据文件完全由 Hive 管理

元数据由 Hive 管理，数据由 HDFS 管理

创建语法

CREATE TABLE（默认）

CREATE EXTERNAL TABLE

删除行为

删除元数据 + 数据文件

只删除元数据，数据文件保留

数据安全性

相对较低

相对较高（误删可恢复数据）

适用场景

临时表、测试数据、ETL 中间表

数据来自外部、共享数据、原始数据保护

💡 拓展思考：内部表和外部表的相互转换

-- 内部表 → 外部表

ALTER TABLE table_name SET TBLPROPERTIES('EXTERNAL'='TRUE');

-- 外部表 → 内部表

ALTER TABLE table_name SET TBLPROPERTIES('EXTERNAL'='FALSE');

────────────────────────────────────────

四、分区表（Partitioned Table）
什么是分区表？
Hive 分区表是一种优化 Hive 查询的方法，用以提高查询性能。分区表通过将数据分散到不同的分区目录中，使得查询仅扫描目标分区的数据，而不是整个表，从而大大减少了数据扫描的范围。

创建分区表
CREATE TABLE trade (

city STRING,

amt INT

)

PARTITIONED BY (sf STRING)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

添加分区的两种方式
方式一：手动添加分区（ALTER TABLE）

ALTER TABLE trade ADD PARTITION(sf='shandong');

ALTER TABLE trade ADD PARTITION(sf='henan');

方式二：MSCK REPAIR（推荐，常用方式）

先将外部数据文件上传（put）到 Hive 表的对应分区目录中，此时数据还没有元数据信息，然后执行修复命令自动添加元数据：

MSCK REPAIR TABLE trade;

查询分区数据
SELECT * FROM trade WHERE sf='shandong';

五、动态分区表
什么是动态分区？
动态分区允许在插入数据时，根据分区字段的值自动创建对应的分区，无需手动创建每个分区。在数据量较大或分区数量不确定时非常有用。

实现步骤
第①步：创建临时表，存储全部数据

CREATE TABLE city (

province_id STRING,

city_id STRING,

amount INT,

city_name STRING

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

第②步：上传数据到临时表

第③步：开启 Hive 支持动态分区的参数

SET hive.exec.dynamic.partition=true;

SET hive.exec.dynamic.partition.mode=nonstrict;

第④步：创建分区表

CREATE TABLE city_dtfq (

province_id STRING,

city_id STRING,

amount INT,

city_name STRING

)

PARTITIONED BY (sf STRING);

第⑤步：从临时表导入数据到分区表（自动创建分区）

⚠️ 分区字段必须放在 SELECT 语句的最后！

INSERT INTO city_dtfq PARTITION(sf)

SELECT province_id, city_id, amount, city_name,

province_id -- 该字段的值作为 sf 分区的值（自动创建分区）

FROM city;

六、分桶表（Bucketed Table）
什么是分桶表？
在 Hive 中，对表进行分桶（Bucketing）是一种优化数据查询和数据存储的方法。分桶可以帮助提高某些类型查询的效率，特别是在执行 JOIN 操作时。

分桶通过将数据按照指定列的哈希值分散到多个文件中，每个文件称为一个桶（Bucket），从而使得查询可以更快地定位到需要的数据。

实现步骤
第①步：创建临时表，存储全部数据

CREATE TABLE city (

province_id STRING,

city_id STRING,

amount INT,

city_name STRING

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

第②步：上传数据到临时表

第③步：创建分桶表（指定分桶字段和桶数量）

CREATE TABLE city_ft (

province_id STRING,

city_id STRING,

amount INT,

city_name STRING

)

CLUSTERED BY (province_id) INTO 2 BUCKETS;

第④步：设置支持分桶的参数

SET hive.enforce.bucketing=true;

第⑤步：从临时表导入数据到分桶表

INSERT INTO city_ft SELECT * FROM city;

────────────────────────────────────────

🌟 面试重点提示
1️⃣ 内部表 vs 外部表的区别是 Hive 面试中的必问题，一定要熟记！

2️⃣ 分区表是最常用的查询优化手段，要重点掌握动态分区的使用

3️⃣ 分桶表常用于 JOIN 优化和抽样查询，了解原理即可

4️⃣ 实际工作中，外部表 + 分区表配合使用是最常见的组合

查看全文

http://www.jsqmd.com/news/1112778/

从API到Agent：万字长文洞悉LangChain工程化设计

基础知识-ISO模型常见协议和每一层作用

突破性Book118文档下载器：一站式免费获取完整PDF的终极方案

PostgreSQL 数据误删恢复技术指南

网站关键词SEO排名是什么意思？

Claude Code 实战指南：AI 代码助手如何提升 Python Flask 开发效率

酷安UWP桌面版：在Windows上畅享酷安社区的完整体验

Insta360 AI剪辑技术解析：从语义理解到智能成片

Honey Select 2专业增强套件：自动化翻译、去码与高级插件配置实战指南

程序代码行数统计脚本

【Linux】章11 管理网络安全（RH134知识点问答题）

理论都会，实战就废？7个分析模板，帮你打通任督二脉

机器学习模型生产部署：从服务化到漂移监控的四层实战体系

三进制太玄经·八十一首（坤至乾·每行一卦·配原文）

从Hello World到部署上线，ChatGPT辅助编程全流程拆解，含17个避坑清单与3个私藏Prompt模板

2026年企业安全基建的误区、重构与最优解

从0开始学AI Agent：设计一个coding agent，Java佬必看

郴州火锅排行榜｜客观实测，理性就餐选型指南

开源AI创作工作台infinite-canvas：一站式可视化无限画布部署与使用指南

AutoRaise终极指南：3分钟实现macOS鼠标悬停自动激活窗口，提升300%工作效率

推算术：中华传统阴阳数理思维的文化探析

AOT 的使用以及 .NET 与 Go 互相调用

从对话到行动：基于LangChain构建AI Agent的实战指南

ASP.NET Core Kestrel服务器HTTPS配置与传输安全加固实战指南

apate文件伪装工具：如何在3秒内绕过格式限制的完整指南

一文看懂PCIe 20年狂飙史与硬核避坑指南

图片分类与对象识别

Orca ADE：多智能体并行编程，突破AI开发效率瓶颈

Java毕业设计-基于 SpringBoot 的社区康养管理系统的设计与实现基于 SpringBoot 的社区老人康养综合中心管理系统(源码+LW+部署文档+全bao+远程调试+代码讲解等)

LeetCode 264.丑数II

相关文章：