当前位置：首页 > news >正文

Hadoop 2.7.3 集群部署、配置与环境变量调优全流程总结

news 2026/3/26 22:27:06

本次完成了基于 master/slave1/slave2 三节点的 Hadoop 分布式集群部署，核心涵盖集群基础配置、环境变量调优、问题排查与验证，最终实现集群全功能可用，以下是完整总结：

节点规划：master 作为 NameNode/ResourceManager，slave1/slave2 作为 DataNode/NodeManager；
基础依赖：全节点安装 JDK（master 路径/usr/java/jdk-12.0.2，slave1/slave2 路径/usr/local/java/jdk-12.0.2），确保 SSH 互通；
Hadoop安装：全节点统一将 Hadoop 2.7.3 安装至/home/hadoop/hadoop-2.7.3，保证HADOOP_HOME路径一致。

在 master 节点完成core-site.xml/hdfs-site.xml/mapred-site.xml/yarn-site.xml等核心配置文件编辑；
通过scp命令将配置文件同步至 slave1/slave2，并执行chown hadoop:hadoop修正文件归属，确保 hadoop 用户有权访问。

master 节点创建tmp/namenode目录，slave1/slave2 创建tmp/datanode目录，路径统一为/home/hadoop/hadoop-2.7.3/xxx，保证配置文件中路径与实际目录匹配。

在 master 节点执行hdfs namenode -format完成 NameNode 格式化（仅执行一次）；
执行start-dfs.sh启动 HDFS 集群、start-yarn.sh启动 YARN 集群，解决密码输入错误、主机指纹验证等启动问题，最终实现 master 节点 NameNode/ResourceManager/SecondaryNameNode 进程，slave 节点 DataNode/NodeManager 进程正常运行。

① 各节点 JDK 路径不一致（master 与 slave 路径不同）；

② 非交互式 shell（su hadoop -c）默认不加载/etc/profile系统级环境变量；

③ slave 节点~/.bashrc为空，未配置自动加载环境变量逻辑。

系统级配置（/etc/profile）：
- master 节点配置JAVA_HOME=/usr/java/jdk-12.0.2，slave1/slave2 配置JAVA_HOME=/usr/local/java/jdk-12.0.2；
- 全节点统一配置HADOOP_HOME=/home/hadoop/hadoop-2.7.3及相关路径，将 JDK/Hadoop 二进制目录加入PATH。
用户级配置（/home/hadoop/.bashrc）：
- 新增source /etc/profile强制加载系统环境变量；
- 补充 JDK/Hadoop 环境变量（与节点实际路径匹配），确保交互式/非交互式 shell 均能识别命令；
- 修正文件归属为hadoop:hadoop，保证权限合规。
执行方式优化：远程执行命令时使用su - hadoop -c（登录式 shell），触发环境变量完整加载。

master 节点jps显示：NameNode、DataNode、ResourceManager、NodeManager、SecondaryNameNode；
slave1/slave2 节点jps显示：DataNode、NodeManager；
所有核心进程无缺失，集群运行稳定。

路径一致性：Hadoop 路径（HADOOP_HOME）全节点必须统一，JDK 路径（JAVA_HOME）只需匹配节点自身实际路径即可；
环境变量加载：非交互式 shell 需通过su -登录式执行，或在.bashrc中强制加载/etc/profile；
权限合规：所有 Hadoop 相关文件/目录归属必须为hadoop:hadoop，避免权限不足导致进程启动失败；
启动核心：NameNode 格式化仅执行一次，集群启动优先解决 SSH 密码/指纹验证问题，进程重复启动提示（Stop it first）为正常现象。