当前位置: 首页 > news >正文

【赵渝强老师】Hive的内部表与外部表

1

​Hive是基于HDFS之上的数据仓库,它把所有的数据存储在HDFS中,Hive并没有专门的数据存储格式。当在Hive中创建了表,可以使用load语句将本地或者HDFS上的数据加载到表中,从而使用SQL语句进行分析和处理。

Hive的数据模型主要是指Hive的表结构,可以分为:内部表、外部表、分区表、临时表和桶表,同时Hive也支持视图。

image.png
点击这里查看视频讲解:【赵渝强老师】Hive的数据模型

一、使用Hive的内部表

内部表与关系型数据库中的表是一样的。使用create table语句可以创建内部表,并且每张表在HDFS上都会对应一个目录。这个目录将默认创建在HDFS的/user/hive/warehouse下。除外部表外,表中如果存在数据,数据所对应的数据文件也将存储在这个目录下。删除内部表的时候,表的元信息和数据都将被删除。

image.png
点击这里查看视频讲解:【赵渝强老师】Hive的内部表

下面使用之前的员工数据(emp.csv)来创建内部表。

(1)执行create table语句创建表结构。

hive> create table emp
(empno int,
ename string,
job string,
mgr int,
hiredate string,
sal int,
comm int,
deptno int)
row format delimited fields terminated by ',';

由于csv文件是采样逗号进行分隔的,因此在创建表的时候需要指定分隔符是逗号。Hive表的默认分隔符是一个不可见字符。

(2)使用load语句加载本地的数据文件。

hive> load data local inpath '/root/temp/emp.csv' into table emp;

(3)使用下面的语句加载HDFS的数据文件。

hive> load data inpath '/scott/emp.csv' into table emp;

(4)执行SQL的查询。

hive> select * from emp order by sal;

(5)整个执行的过程如下图所示。

2

(6)查看HDFS的/user/hive/warehouse/目录可以看到创建的emp表和加载的emp.csv文件,如下图所示。

3

二、使用外部表

与内部表不同的是,外部表可以将数据存在HDFS的任意目录下。可以把外部表理解成是一个快捷方式,它的本质是建立一个指向HDFS上已有数据的链接,在创建表的同时会加重数据。而当删除外部表的时候,只会删除这个链接和对应的元信息,实际的数据不会从HDFS上删除。

image.png
点击这里查看视频讲解:【赵渝强老师】Hive的外部表

下面通过具体的步骤演示如何创建Hive的外部表。

[root@bigdata111 ~]# more students01.txt 
1,Tom,23
2,Mary,22
[root@bigdata111 ~]# more students02.txt 
3,Mike,24

(2)将数据文件上传到HDFS的任意目录。

hdfs dfs -mkdir /students
hdfs dfs -put students0*.txt /students

(3)在Hive中创建外部表。

hive> create external table ext_students
(sid int,sname string,age int)
row format delimited fields terminated by ','
location '/students';

(4)执行SQL的查询。

hive> select * from ext_students;

(5)执行的结果如下图所示。

4

http://www.jsqmd.com/news/98038/

相关文章:

  • 2025年智能升降家居系统权威推荐榜:橱柜/化妆台/卫浴/衣柜全场景电动升降解决方案深度解析 - 品牌企业推荐师(官方)
  • 在数字中国建设大潮中,破解工具手段单一难题,科技服务合作伙伴的出路在哪里?
  • 制造业的“隐性能耗指挥官”:疾风大模型如何通过温湿度精准预测优化工业厂区能源微网?
  • Hi-C+宏基因组,噬菌体-宿主互作研究利器!
  • 00后大模型实习生「扒光」豆包手机!千字实测揭秘
  • 模块热替换 (HMR):前端开发的“魔法”与提速秘籍
  • 【dz-969】低洼地段的水深情况
  • 企业组织架构图导出Word 在线编辑免费工具
  • 拥抱未来:ECMAScript Modules (ESM) 深度解析
  • 清朝条约全集 PDF 电子版(三册合集):从尼布楚到辛丑,历史文献速存
  • 告别论文AIGC焦虑:主流降AI工具深度实测与选择指南
  • AI 生成内容的伦理边界:深度伪造与信息真实性的保卫战
  • 从系统管理与网络监控看核心功能解析
  • 一台服务器能做什么
  • 如何确保服务器的安全性
  • sqlserver索引优化
  • 消费级无人机续航现状、限制因素及突破方法
  • 借助图片懒加载触发 JavaScript 动态导入
  • 算法训练营Day
  • 机器学习入门笔记:线性回归核心知识点全梳理(含公式+代码)
  • 保姆级实战指南!AI工作流与Agent:从零搭建到高效落地,看这一篇就够了!
  • Vue3开发选JavaScript还是选TypeScript
  • 职业本科与高职专科低空相关专业核心差异解析
  • 2025年质量好的杀菌消毒等离子发生器/空气净化等离子发生器厂家口碑热榜(用户推荐) - 行业平台推荐
  • ATTO 655 TCO反式环辛烯是一款高性能远红荧光生物正交标记探针
  • 国际物流行业深度解析:从义乌实践看头部服务商综合实力排行榜 - 呼呼拉呼
  • LobeChat在电商客服机器人中的实际应用效果
  • 【机器学习】有限假设空间原理与实战
  • Linly-Talker能否挑战Synthesia等商业数字人平台?
  • 如何在Dify中实现RAG系统的端到端构建?