当前位置: 首页 > news >正文

【Hadoop 10周年】我与Hadoop不得不说的故事

初识Hadoop

初次接触Hadoop是在2008年,那时我还在读研,研究的大方向为智能信息处理,也是跟云计算沾了点边,为了准备第二年的毕业论文,在茫茫资料大海中,偶然间看到了一篇关于Hadoop介绍的文章,从那之后,便是断断续续的慢慢了解、熟悉。

为什么说我是断断续续的了解呢?因为那个时候包括云计算都是才刚刚兴起,Hadoop在国内研究的人还不多,充斥在网络上的大部分资料也都是英文的,不像现在,并没有系统讲解Hadoop的中文书籍、文章。要看的就只有官网上的文章,我那个时候的感觉就是摸着石头过河。又因为本人学业的原因,选择了另外一个数据处理的课题-粒计算,所以说,并没有深入去学习研究Hadoop。

概述

作为云计算所青睐的分布式架构,Hadoop是一个用Java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算。Hadoop是原Yahoo的Doug Cutting根据Google发布的学术论文研究而来。分别是谷歌发表的三篇大数据论文:Google File System、Google MapReduce、Google BigTable,这三篇文章奠定了Hadoop开源系统的理论和实践应用基础,Hadoop就是在此理论的启发的基础上设计了自己的开源的系统。

Hadoop这个名字不是一个缩写,而是一个虚构的名字。该项目的创建者,Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子恰恰是这方面的高手。”

不解之缘

工作以后,机缘巧合之下,公司里要使用ZooKeeper对公司现有的软件应用做一致性的服务管理,这个时候,透过对于ZooKeeper的改造使用,又重新捡起了Hadoop,加上本人有着Java语言和机器学习的基础。因而,我能够很快地进行Hadoop技术的学习和实践。


也是从那时开始,心里产生了系统学习下Hadoop这个热门技术的想法。头脑中闪现着我到底想要要学习Hadoop技术哪些方面。
通过浏览Hadoop官网、Hadoop经典著作、Hadoop相关技术文档和博客等等,我的头脑中慢慢形成了我自己的Hadoop技术学习路线图。

明确自己学习的内容

当自己静下心来之后,脑海中想的更多的还是要如何在业余时间能够学好Hadoop,通过多方面的考虑,结合自己的实际情况,我想从以下几个方面循序渐进的进行学习:

  • Hadoop基础。了解Hadoop的发展历程、Hadoop的应用场景、Hadoop的核心架构,以及Hadoop的环境构建。
  • Hadoop编程。研究HDFS和MapReduce工作原理,掌握MapReduce编程,探讨Hadoop程序的性能优化。
  • Hadoop应用。涉及到MapReduce程序的应用和Hadoop技术的综合应用。
  • Hadoop的源码解析。搭建源码阅读环境,在理解Hadoop核心架构的基础上,深入理解Hadoop的源码。
  • Hadoop生态系统里的项目。常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等等,有针对性的深入研究两到三个项目。

坚持在CSDN上写博客

为了自我督促自己的学习,我专门在CSDN上开始写关于Hadoop的博客,从通过虚拟机搭建第一个伪分布式的环境,到真正意义上的小规模迷你Hadoop集群,再到Hadoop源码的学习研究,中间遇到的问题,如何解决问题,都记录到了自己的博客中,并建立了研磨Hadoop专栏,专门去研究学习Hadoop的方方面面。通过这个方式与热心的网友进行沟通学习,由此,我收获颇大。我的博客地址:海兰-CSDN博客。

写在最后

最后,世上无难事只怕有心人,按照自己初定的想法,一步步的走下去吧,虽然有时会步履蹒跚,但是,终究是一步一步在往前走。现在我时时关注Hadoop技术的进展,时常想想如何使用Hadoop技术解决大数据时代里的各种问题,并且在自己搭建的简陋环境里进行实践尝试。虽然本人只是在业余时间进行研究,硬件条件也很有限,但是,终究还是有一颗积极向上的心。也以此篇作为学习研究Hadoop的个人阶段性的总结吧。希望Hadoop发展越来越好。

列一下自己的书单与众位志同道合者共飨:

  • Hadoop: The Definitive Guide
  • Hadoop Operations
  • Hadoop in Action
  • Pro Hadoop
  • Hadoop in Practice
  • MapReduce Design Patterns
  • MapReduce2.0源码分析与编程实战
  • 高可用性的HDFS:Hadoop分布式文件系统深度实践
  • Hadoop技术内幕:深入解析YARN架构设计与实现原理
  • Hadoop技术内幕:深入解析MapReduce架构设计与实现原理
  • 云计算(第二版)
http://www.jsqmd.com/news/943064/

相关文章:

  • 8086与8088单板机接口转换调试笔记(续)
  • 代码阅读方法与最佳实践
  • 罐体倒罐监测 磁翻板液位计十大品牌 设备液位定点监控 - 仪表人叶工
  • 成都西装定制时尚指南:2024年5家潮流店铺深度测评 - 西装爱好者
  • KDiff3终极指南:如何快速掌握免费文件比较与合并工具
  • 别再怕图片被压缩了!用MBRS+DNN给图片加个‘隐形锁’,实测抗JPEG压缩效果
  • LabVIEW上位机+51单片机串口联动控制四相五线步进电机(含ULN2003驱动电路与完整工程文件)
  • 如何使用 Web Worker 多线程计算重新架构现代化前端组件库与核心数据流
  • AI报告审核成检测机构新标配,IACheck助力果蔬检测报告一次合格率大幅提升
  • OpenIPC固件:为海思、君正等主流IP摄像头芯片提供完整开源解决方案
  • DeepONet非线性算子学习终极指南:从零基础到实战应用
  • UniApp插件实战:手把手教你将高德地图SDK封装成安卓原生插件(for HBuilderX 3.8.7)
  • MATLAB数字变频双脚本包:含DDC下变频与DUC上变频完整实现及可视化示例
  • OpenCode:166K 星的开源 AI 编程 Agent,一天涨 1000 星凭什么?
  • 学术峰会项目管理全解析:从战略设计到长效运营
  • 中小企业适合使用经销商管理系统吗? - 麦麦唛
  • 避坑指南:在K230上跑通AI_Cube目标检测训练,这些细节千万别忽略
  • 2026年数据建模工具有哪些:五家优选品牌深度解析 - 科技焦点
  • 粮食检测报告审核进入智能时代:AI报告审核助力IACheck实现效率翻倍与质量双提升
  • 现代前端工程化中提升 JS防抖与节流机制首屏加载速度的动态拆包策略
  • Dryad分布式计算框架:用DAG编程数据中心的核心原理与实践
  • Docker网络进阶:除了8.8.8.8,你的容器DNS还能怎么玩?(内网穿透、自定义域名解析实战)
  • 纺纱设备可视化监控运维管理平台方案
  • CABAC基础一-二值化
  • 预算有限?这几款高性价比授课工具帮你省钱
  • 厦门钻石回收:原装包装有价值吗?专柜钻石附加物件增值实测 - 开心测评
  • 树莓派DIY复古街机:从硬件选型到RetroPie系统配置全攻略
  • 告别环境冲突!在Win11的Anaconda里为Sionna和TensorFlow/PyTorch创建独立工作区
  • 如何轻松提升Windows虚拟机性能:开源驱动实战方案
  • 某直播平台打赏纠纷的舆情处置记录