当前位置: 首页 > news >正文

【hive学习笔记2】

笔记关联-hive学习笔记

测试Demo

1.首先在windows上(本地)创建几个文件(放一列数据),如:

2.在hive建表

3.上传数据

上传成功显示

4.测试查询

hive系统架构


上图所示是hive的主要组件及其与Hadoop的交互方式:
***1.***用户用SQL语句发送指令给hive,hive先进行翻译,把用户所需什么表什么字段上的什么数据的指令交给编译器进行解析,解析后系统会去原储存查到所需的数据交给驱动程序形成执行计划发给执行引擎,【如果这个指令有“增删改元数据”的要求,6.1的步骤就是将这个‘增删改后的元数据’返给元储存,此时元储存中的元数据是进行了“增删改”后的元数据,如果元数据没有被进行增删改,则6.1的步骤省略
2.让执行引擎按照这个方案,去 Hadoop 上真正执行任务,6.1执行作业步骤相当于执行引擎把执行计划,拆成一个或多个大的「作业(Job)」,发给 Hadoop 的总包工头(作业跟踪器)。此时,作业跟踪器会做两件事:
1)把大作业拆成很多个小的 Map 任务,再把 Map 任务的结果,分配给对应的Reduce 任务;

注:Map 是分头处理:比如你要统计 1000 万行数据,Map 阶段把 1000 万行拆成 100 份,100 台机器每台处理 10 万行,先做过滤、初步计算,把大任务拆成小任务,并行跑,速度快很多。
2)把这些小任务,分配给 Hadoop 集群里,各个机器上的小工头(任务跟踪器)。

注:Reduce = 汇总合并:把 100 台机器的 Map 结果全部收过来,合并成最终的结果,比如求和、统计总数、去重,得到你要的最终数据。
3.6.2jobDone步骤是指每个MAP(任务跟踪器),全程盯着自己机器上的 Map/Reduce 任务,任务一跑完,就立刻给作业跟踪器汇报。等所有的 Map 任务和 Reduce 任务全部跑完,作业跟踪器就给执行引擎发一个「jobDone」的通知,明确告诉它:你发的这个大作业,我已经全部干完了。

4.
流程解读:
①Map 任务要读数据:先问名称节点,我要的数据块存在哪台机器(node1、node2、node3)的哪个数据节点,然后直接去对应的数据节点读数据;
②Map 任务跑完的中间结果,会暂时存在 HDFS 上,给后面的 Reduce 任务用;
③Reduce 任务启动后,会从 HDFS 上,把所有 Map 任务的中间结果全部读出来,做汇总计算;
④Reduce 任务跑完的最终结果,会完整写到 HDFS 上,永久保存;
⑤执行引擎也会直接操作 HDFS,比如查结果文件的位置、确认文件是否生成。
上述流程即完成
6.3dfs的操作步骤

5.第7、8、9步获取、发送结果的流程:
Hadoop 任务跑完把结果存进 HDFS 仓库 → 总指挥(执行引擎)先去仓库把结果取出来(步骤 9) → 总指挥把取到的结果完整发给项目大管家(驱动程序,步骤 8) → 大管家把结果最终交付给你,你在屏幕上看到结果(步骤 7)。

http://www.jsqmd.com/news/1116998/

相关文章:

  • 植物大战僵尸宽屏补丁终极教程:3步实现全屏沉浸体验
  • Visual C++运行库终极解决方案:一键修复Windows软件运行问题
  • ubuntu26上原生使用root账号安装最新版openclaw
  • 性能优化必备!openEuler/intel-lkvs PMU/RAPL/Pstate测试工具使用详解
  • 3步搞定WPS文献引用:免费开源插件让你的学术写作效率飙升80%
  • Hanami 3.0全面绽放:新增三大特性,默认速度快3倍,还有更多改进!
  • Meta 智能眼镜“对话聚焦”设时长限制,每月 20 美元解锁更多使用时间!
  • EEVDF取代CFS?Linux内核调度器这30年到底在卷什么
  • 【HarmonyOS 7开发者前瞻】01 HarmonyOS 7 开发者适配路线图:从 API 26 Beta 到 Skill、Agent 与 AI 工具链
  • 5分钟掌握华硕笔记本性能控制:GHelper轻量级工具完整使用指南
  • 百考通10分钟搞定导师点头的版本
  • 模型路由与提示预处理:控制大语言模型成本、提升令牌使用效果的新方法!
  • Bifrost:三星固件下载的终极解决方案,跨平台免费工具全攻略
  • 保障用电安全,电能质量监测该用在何处?
  • 英伟达RTX Spark超级芯片深度解析:AI PC如何重塑个人计算与工作流
  • 选安全净水器,顾家是答案
  • # XLua WinForm桌面环境部署与运行说明本次完成了原生XLua在VS2022 WinForm桌面程序的完整部署与功能验证,全程解决编译、库加载、类型兼容三类核心问题。首先通过CMake编译
  • SnapLogic 推出 MCP Builder:无需代码,加速企业 AI 应用落地!
  • Prompt Engineering在AI Agent中的高级技巧:从Chain-of-Thought到Tree-of-Thought
  • GPT工程能力全景图谱:场景映射、标准化工作流与落地实战指南
  • RoPE 与 ALiBi:位置编码的两种革命性范式
  • 3步实战:如何让《艾尔登法环》在高端硬件上释放全部潜能
  • 佳能G6080报错5b00维修历程,开始把打印机抱到维修店,维修师傅说修好大概180元,我觉得实在太贵了就没有必要维修了,买一台新的算了,准备买新的时候朋友推荐用佳能V6.200佳能清零软件,最终修好
  • 第17章:Dify 分层架构与 DDD 设计深度解析
  • Mac视频预览终极解决方案:让Finder直接播放MKV、AVI等所有格式视频
  • 华硕笔记本性能调优终极指南:如何用GHelper取代臃肿的Armoury Crate
  • 解决Turbo Intruder插件兼容性问题:升级Burp Suite实战指南
  • 中国顶尖AI大模型的四大硬核判断标准
  • gsplat安装与使用指南:高效实现3D高斯溅射渲染
  • OpenClaw移动端安装部署实战:local-first架构实测与Cursor云端方案全对比