当前位置：首页 > news >正文

【Hadoop 10周年】我与Hadoop不得不说的故事

news 2026/6/3 15:48:54

初识Hadoop

初次接触Hadoop是在2008年，那时我还在读研，研究的大方向为智能信息处理，也是跟云计算沾了点边，为了准备第二年的毕业论文，在茫茫资料大海中，偶然间看到了一篇关于Hadoop介绍的文章，从那之后，便是断断续续的慢慢了解、熟悉。

为什么说我是断断续续的了解呢？因为那个时候包括云计算都是才刚刚兴起，Hadoop在国内研究的人还不多，充斥在网络上的大部分资料也都是英文的，不像现在，并没有系统讲解Hadoop的中文书籍、文章。要看的就只有官网上的文章，我那个时候的感觉就是摸着石头过河。又因为本人学业的原因，选择了另外一个数据处理的课题-粒计算，所以说，并没有深入去学习研究Hadoop。

概述

作为云计算所青睐的分布式架构，Hadoop是一个用Java语言实现的软件框架，在由大量计算机组成的集群中运行海量数据的分布式计算。Hadoop是原Yahoo的Doug Cutting根据Google发布的学术论文研究而来。分别是谷歌发表的三篇大数据论文：Google File System、Google MapReduce、Google BigTable，这三篇文章奠定了Hadoop开源系统的理论和实践应用基础，Hadoop就是在此理论的启发的基础上设计了自己的开源的系统。

Hadoop这个名字不是一个缩写，而是一个虚构的名字。该项目的创建者，Doug Cutting解释Hadoop的得名：“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短，容易发音和拼写，没有太多的意义，并且不会被用于别处。小孩子恰恰是这方面的高手。”

不解之缘

工作以后，机缘巧合之下，公司里要使用ZooKeeper对公司现有的软件应用做一致性的服务管理，这个时候，透过对于ZooKeeper的改造使用，又重新捡起了Hadoop，加上本人有着Java语言和机器学习的基础。因而，我能够很快地进行Hadoop技术的学习和实践。

也是从那时开始，心里产生了系统学习下Hadoop这个热门技术的想法。头脑中闪现着我到底想要要学习Hadoop技术哪些方面。
通过浏览Hadoop官网、Hadoop经典著作、Hadoop相关技术文档和博客等等，我的头脑中慢慢形成了我自己的Hadoop技术学习路线图。

明确自己学习的内容

当自己静下心来之后，脑海中想的更多的还是要如何在业余时间能够学好Hadoop，通过多方面的考虑，结合自己的实际情况，我想从以下几个方面循序渐进的进行学习：

Hadoop基础。了解Hadoop的发展历程、Hadoop的应用场景、Hadoop的核心架构，以及Hadoop的环境构建。
Hadoop编程。研究HDFS和MapReduce工作原理，掌握MapReduce编程，探讨Hadoop程序的性能优化。
Hadoop应用。涉及到MapReduce程序的应用和Hadoop技术的综合应用。
Hadoop的源码解析。搭建源码阅读环境，在理解Hadoop核心架构的基础上，深入理解Hadoop的源码。
Hadoop生态系统里的项目。常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的项目包括，YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等等，有针对性的深入研究两到三个项目。

坚持在CSDN上写博客

为了自我督促自己的学习，我专门在CSDN上开始写关于Hadoop的博客，从通过虚拟机搭建第一个伪分布式的环境，到真正意义上的小规模迷你Hadoop集群，再到Hadoop源码的学习研究，中间遇到的问题，如何解决问题，都记录到了自己的博客中，并建立了研磨Hadoop专栏，专门去研究学习Hadoop的方方面面。通过这个方式与热心的网友进行沟通学习，由此，我收获颇大。我的博客地址：海兰-CSDN博客。

写在最后

最后，世上无难事只怕有心人，按照自己初定的想法，一步步的走下去吧，虽然有时会步履蹒跚，但是，终究是一步一步在往前走。现在我时时关注Hadoop技术的进展，时常想想如何使用Hadoop技术解决大数据时代里的各种问题，并且在自己搭建的简陋环境里进行实践尝试。虽然本人只是在业余时间进行研究，硬件条件也很有限，但是，终究还是有一颗积极向上的心。也以此篇作为学习研究Hadoop的个人阶段性的总结吧。希望Hadoop发展越来越好。

列一下自己的书单与众位志同道合者共飨：