当前位置：首页 > news >正文

Hadoop真实落地前必须直面的五个关键问题

news 2026/6/22 2:53:40

1. 这不是“入门教程”，而是一份Hadoop真实落地前的清醒剂

你搜“An Introduction to Hadoop”，点开十篇，八篇开头就是“Hadoop是Apache基金会开发的分布式计算框架……”——这没错，但毫无价值。我干了十二年大数据平台建设，从0.20.x版本开始搭集群，亲手在物理机上拧过RAID卡、在机房里蹲着插过万兆光模块、也经历过NameNode单点崩溃导致整个数据湖停摆三天的至暗时刻。今天这篇，不讲教科书定义，只讲你真正要动手时，第一眼看到hadoop-3.3.6.tar.gz压缩包时，脑子里该闪过的五个关键问题：它到底要解决什么现实瓶颈？为什么非得用Java写？YARN和MapReduce到底谁管谁？为什么所有教程都强调“先配SSH免密”却没人说清本质？以及，最致命的——当你在Linux下敲完start-dfs.sh，屏幕上刷出一串starting namenode, starting datanodes...之后，哪三个日志文件你必须立刻盯住，否则三小时后就会发现任务全卡死在ACCEPTED状态？

核心关键词就一个：Hadoop。但它绝不是个孤立工具，而是整套数据基础设施的“地基混凝土”。你看到的hadoop fs -ls /命令背后，是Linux内核级的文件系统抽象、JVM堆内存的精细调控、TCP连接池的并发控制、甚至磁盘I/O调度策略的妥协。所谓“安装配置”，本质是把一套为超大规模离线批处理设计的重型引擎，塞进你手头那台8核32G的虚拟机里，并让它别因为一个配置参数偏差就吐核。所以这篇内容，专为两类人准备：一是刚被课程设计逼到墙角、急需跑通WordCount但连core-site.xml里fs.defaultFS填什么IP都犹豫的学生；二是技术负责人，正评估是否要把现有Oracle数仓迁到Hadoop生态，需要知道“高可用集群”四个字背后要多买几台服务器、多配几个运维人力。下面所有内容，没有一句是抄自官网文档——全是我在客户现场、在凌晨三点的告警群里、在反复重装十七次集群后，用血泪换来的实操逻辑。

2. 内容整体设计与思路拆解：为什么必须从“问题倒推”开始

2.1 所有Hadoop学习者踩的第一个坑：把“分布式”当目的，而非手段

翻遍热搜词，“hadoop集群搭建”“hadoop三机部署”“ambari部署hadoop集群”高频出现，但几乎没人问：为什么非得集群？单机伪分布式不能跑WordCount吗？答案是能，而且非常快——在你的笔记本上，单机模式跑1GB文本的WordCount，可能比三节点集群还快0.8秒。那集群的意义在哪？看透这点，才能理解整个架构设计。

Hadoop诞生于Google三篇论文的工程实现，核心要解决的是海量数据（PB级）在廉价硬件上的可靠存储与并行计算。注意两个关键词：“廉价硬件”和“可靠”。廉价意味着硬盘会坏（年故障率5%）、网卡会掉（万兆光模块热插拔失联）、内存会泄漏（JVM GC不及时）。可靠则要求：一块磁盘坏了，数据不丢；一台机器宕机，任务不中断。这才是HDFS和YARN存在的根本逻辑。所以，当你在实验中配置dfs.replication=3，它不是为了“让数据多存几份显得很厉害”，而是用三份副本的空间成本，换取单点硬件故障时的数据可用性。计算同理，YARN的ResourceManager不是为了“统一资源管理”这种虚名，而是当某个NodeManager进程因OOM崩溃时，能立刻把它的Container调度到其他节点重试。

提示：很多初学者在hdfs-site.xml里把dfs.replication设成1，以为“省空间”，结果第一次遇到DataNode挂掉，整个HDFS直接进入SAFEMODE无法写入。这不是配置错误，是没理解设计哲学——Hadoop的“容错”是靠冗余换来的，不是靠代码健壮性。

2.2 为什么Java是唯一选择？JVM特性如何反向塑造Hadoop行为

所有教程都告诉你“Hadoop用Java开发”，但没人深挖：为什么不用C++写性能更高？为什么不用Go写更轻量？真相是：Hadoop对JVM的依赖，远超你的想象。NameNode的元数据全部存在JVM堆内存里（-Xmx4g），一旦堆溢出，整个集群元数据服务就崩；DataNode的块报告（BlockReport）每6小时发一次，每次序列化上万块信息，全靠JVM的GC机制扛住；更关键的是，MapReduce的Shuffle阶段，Mapper输出的中间结果，直接通过JVM堆内的环形缓冲区（io.sort.mb参数控制）暂存，再溢写到本地磁盘。这意味着：你调mapreduce.map.memory.mb这个参数，本质是在给JVM分配堆外内存做缓冲区，而不是给“Map任务”本身分内存。

这就解释了为什么“hadoop版本不一致导致kerberos认证问题”如此致命——Kerberos的票据缓存、加密算法实现，深度绑定JDK版本。Hadoop 3.3.6要求JDK 8u191+，若你用JDK 8u171，Krb5LoginModule的refreshKrb5Config()方法签名不同，认证直接失败，且错误日志只显示GSSException: No valid credentials provided，让你在krb5.conf里翻三天。所以，所谓“hadoop安装”，第一步永远是锁死JDK版本，第二步才是解压tar包。

2.3 YARN：不是“资源管理器”，而是“操作系统内核”的模拟层

新手常混淆YARN和MapReduce的关系。看到“hadoop_mapred_home=${full path of your hadoop distribution directory}”这种配置，以为MapReduce是Hadoop的子模块。错。YARN是独立的资源调度内核，MapReduce只是运行在其上的第一个“用户态应用”。你可以把YARN想象成Linux内核，而MapReduce、Spark、Flink就是跑在上面的/bin/bash、/usr/bin/python。yarn-site.xml里的yarn.resourcemanager.hostname，相当于内核的/proc/sys/kernel/hostname；yarn.nodemanager.resource.memory-mb，就是/proc/meminfo里给用户进程分配的内存上限。

因此，“hadoop客户端”本质是个SDK：它把你的hadoop fs -put命令，翻译成YARN RPC协议发给ResourceManager；把yarn jar wordcount.jar，包装成ApplicationMaster启动请求。这也是为什么“hadoop windows安装”极其痛苦——Windows没有POSIX信号机制，YARN的Container进程无法被优雅kill，导致资源泄露。而“hadoop开发环境搭建头歌”这类平台，其实是用Docker模拟了Linux内核环境，再注入Hadoop二进制。

2.4 配置文件的本质：不是“填空题”，而是“系统调优接口”

core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml这四份XML，常被当成安装步骤的“填空题”。但真相是：它们是Hadoop暴露给运维人员的、唯一的系统级调优接口。比如fs.defaultFS，填hdfs://localhost:9000是伪分布式，填hdfs://mycluster则是HA集群，后者会触发ZooKeeper的自动故障转移逻辑；yarn.scheduler.minimum-allocation-mb设为1024MB，意味着任何Container申请内存低于此值，YARN直接拒绝——这看似限制，实则是防止小任务碎片化占用资源，导致大任务饿死。

最典型的例子是hadoop.tmp.dir。所有教程都让你设成/usr/local/hadoop/tmp，但生产环境必须指向独立挂载的SSD盘。因为HDFS的EditLog、SecondaryNameNode的CheckPoint、YARN的LocalDir（存放Container临时文件），全写这里。若和系统盘共用，一次大Job的Shuffle溢写，就能把/根分区打满，触发Linux OOM Killer干掉NameNode进程。

3. 核心细节解析与实操要点：从解压到跑通WordCount的生死线

3.1 环境准备：比“安装JDK”更重要的三件事

很多教程第一步就是“安装JDK”，但实际操作中，以下三件事失败率高达70%，且错误日志极其隐蔽：

关闭SELinux：CentOS/RHEL默认开启SELinux，它会阻止DataNode绑定50010端口（DataNode数据传输端口）。现象是jps看不到DataNode进程，hadoop dfsadmin -report显示0个Live Nodes。解决方案不是改sestatus，而是永久禁用：sudo sed -i 's/SELINUX=enforcing/SELINUX=disabled/g' /etc/selinux/config，然后重启。临时方案setenforce 0无效，因Hadoop服务启动时SELinux已加载策略。
时间同步精度：Kerberos认证要求集群节点时间差<5分钟，但HDFS的块租约（Lease）机制要求<1秒。若NTP未校准，NameNode会认为DataNode“心跳超时”，主动将其踢出集群。实测：用chronyd比ntpd更稳，配置/etc/chrony.conf添加server ntp.aliyun.com iburst，并执行chronyc makestep强制立即同步。
ulimit参数调优：Linux默认ulimit -n（文件描述符）为1024，而一个DataNode进程需打开数千个块文件。现象是DataNode日志疯狂报Too many open files，随后进程退出。必须在/etc/security/limits.conf中为hadoop用户添加：

hadoop soft nofile 65536 hadoop hard nofile 65536 hadoop soft nproc 65536 hadoop hard nproc 65536

并确保/etc/pam.d/common-session包含session required pam_limits.so。

注意：这些配置必须在创建hadoop用户前完成，或修改后重新登录用户。用su - hadoop切换用户后，执行ulimit -n验证是否生效。

3.2 SSH免密登录：不是“为了方便”，而是“分布式协调的通信基石”

所有教程都教你ssh-keygen && ssh-copy-id，但没人说清：为什么NameNode必须能无密码SSH到所有DataNode？因为Hadoop的启动脚本（如start-dfs.sh）本质是Shell脚本，它通过SSH在远程节点执行hdfs --daemon start datanode命令。若需输密码，脚本阻塞，集群无法批量启停。

但更深层的是：HDFS的块平衡（Balancer）和退役（Decommission）操作，依赖SSH通道下发指令。当执行hdfs dfsadmin -refreshNodes刷新节点列表时，NameNode会通过SSH连接到每个DataNode，读取其hdfs-site.xml中的dfs.hosts.exclude配置，决定是否将其标记为“退役中”。若SSH不通，退役过程卡死，数据无法迁移。

实操陷阱：ssh-copy-id默认用rsa算法，但OpenSSH 8.8+已弃用。若目标机器OpenSSH版本新，需显式指定：ssh-keygen -t ed25519生成密钥，再ssh-copy-id -i ~/.ssh/id_ed25519.pub user@host。否则ssh -o StrictHostKeyChecking=no user@host会报no matching key exchange method found。

3.3 配置文件详解：每一行背后的“为什么”

3.3.1`core-site.xml`：Hadoop的“DNS服务器”

<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://mycluster</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/data/hadoop/tmp</value> </property> </configuration>

fs.defaultFS：这是Hadoop的“根域名”。填hdfs://localhost:9000，所有hadoop fs命令直连本机NameNode；填hdfs://mycluster，则触发HA逻辑，NameNode会从ZooKeeper读取当前Active节点地址。切记：此处的mycluster必须与hdfs-site.xml中dfs.nameservices值完全一致，否则hadoop fs -ls /报UnknownHostException。
hadoop.tmp.dir：如前所述，必须是独立磁盘。生产环境建议设为/data/hadoop/tmp，并确保/data是XFS文件系统（比ext4更适合大文件），挂载参数加noatime,nodiratime减少IO。

3.3.2`hdfs-site.xml`：HDFS的“宪法”

<configuration> <property> <name>dfs.nameservices</name> <value>mycluster</value> </property> <property> <name>dfs.ha.namenodes.mycluster</name> <value>nn1,nn2</value> </property> <property> <name>dfs.namenode.rpc-address.mycluster.nn1</name> <value>namenode1:8020</value> </property> <property> <name>dfs.namenode.http-address.mycluster.nn1</name> <value>namenode1:9870</value> </property> <property> <name>dfs.namenode.shared.edits.dir</name> <value>qjournal://node1:8485;node2:8485;node3:8485/mycluster</value> </property> <property> <name>dfs.journalnode.edits.dir</name> <value>/data/hadoop/journal</value> </property> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.permissions.enabled</name> <value>false</value> </property> </configuration>

dfs.ha.namenodes.mycluster：定义HA集群中NameNode的逻辑ID（nn1,nn2），不是主机名。后续所有RPC地址都基于此ID拼接。
dfs.namenode.shared.edits.dir：JournalNode的Quorum地址。qjournal://协议要求至少3个JournalNode（奇数），防止单点故障。mycluster是JournalNode集群名，必须与dfs.nameservices一致。
dfs.journalnode.edits.dir：JournalNode存储EditLog的目录，必须是独立磁盘，且权限为hadoop:hadoop。若与hadoop.tmp.dir共用，JournalNode写满会导致整个HA失效。
dfs.permissions.enabled=false：开发环境可关，生产环境必须为true。关掉后，HDFS不检查Linux文件权限，所有用户都能rm -rf /——这是学生实验中最常见的“删库跑路”根源。

3.3.3`yarn-site.xml`：YARN的“交通管制中心”

<configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>resourcemanager</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>8192</value> </property> <property> <name>yarn.scheduler.minimum-allocation-mb</name> <value>1024</value> </property> <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> </configuration>

yarn.nodemanager.aux-services=mapreduce_shuffle：告诉NodeManager“启动ShuffleHandler服务”，这是MapReduce的Shuffle阶段必需的。若漏配，Mapper输出无法被Reducer拉取，任务卡在RUNNING状态。
yarn.nodemanager.resource.memory-mb：NodeManager上报给ResourceManager的总内存。必须小于物理内存的80%。例如16G机器，设为12288MB（12G），留4G给系统和JVM开销。若设为16384MB，ResourceManager会超分资源，导致Container因OOM被Kill。
yarn.log-aggregation-enable=true：启用日志聚合。否则Container日志散落在各NodeManager本地，排查问题需逐台登录。启用后，日志自动上传到HDFS的/tmp/logs目录，用yarn logs -applicationId application_1234567890_0001一键查看。

3.4 启动与验证：三份日志决定成败

执行start-dfs.sh和start-yarn.sh后，不要只信jps。必须盯住以下三个日志：

NameNode日志：$HADOOP_HOME/logs/hadoop-hadoop-namenode-*.log
关键检查点：搜索STARTUP_MSG确认启动成功；搜索Safe mode is ON表示安全模式开启（正常）；搜索Exiting safe mode表示退出安全模式（此时HDFS才可写入）。若一直卡在Safe mode is ON，执行hdfs dfsadmin -safemode leave强制退出。
DataNode日志：$HADOOP_HOME/logs/hadoop-hadoop-datanode-*.log
关键检查点：搜索Registered确认注册成功；搜索Block pool <BP-xxx>确认块池ID；搜索Received block report确认心跳正常。若出现Inconsistent disk state，说明dfs.datanode.data.dir目录权限不对或磁盘满。
ResourceManager日志：$HADOOP_HOME/logs/yarn-hadoop-resourcemanager-*.log
关键检查点：搜索ResourceManager Webapp started确认Web UI启动；搜索Registered NodeManager确认NodeManager注册；搜索Application added确认任务提交成功。若出现Failed to connect to ZooKeeper，说明ZK地址配置错误。

实操心得：我习惯在启动后，立刻执行tail -f $HADOOP_HOME/logs/*.log | grep -E "(STARTUP|Registered|Application)"，把三份日志合并监控。比开三个终端高效得多。

4. 实操过程与核心环节实现：从零到WordCount的完整链路

4.1 实验1：Linux系统下Hadoop安装与使用（4学时）的硬核拆解

假设你有一台CentOS 7虚拟机（4核8G），按以下步骤实操，全程可复制：

4.1.1 步骤1：基础环境固化（30分钟）

# 创建hadoop用户（避免root运行） sudo useradd -m hadoop sudo passwd hadoop # 切换用户 su - hadoop # 安装JDK 8u292（Hadoop 3.3.6官方推荐） wget https://download.java.net/java/GA/jdk8u292/71cfe4bcdd32428a94916a9e430d9d1a/jdk-8u292-linux-x64.tar.gz tar -zxf jdk-8u292-linux-x64.tar.gz -C /opt/ echo 'export JAVA_HOME=/opt/jdk1.8.0_292' >> ~/.bashrc echo 'export PATH=$JAVA_HOME/bin:$PATH' >> ~/.bashrc source ~/.bashrc # 关闭防火墙（实验环境） sudo systemctl stop firewalld sudo systemctl disable firewalld

4.1.2 步骤2：Hadoop安装与目录规划（20分钟）

# 下载Hadoop 3.3.6 wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz tar -zxf hadoop-3.3.6.tar.gz -C /opt/ # 创建软链接，便于升级 ln -s /opt/hadoop-3.3.6 /opt/hadoop # 创建数据目录（独立磁盘！） sudo mkdir -p /data/hadoop/{tmp,journal} sudo chown -R hadoop:hadoop /data/hadoop sudo chmod -R 755 /data/hadoop # 配置环境变量 echo 'export HADOOP_HOME=/opt/hadoop' >> ~/.bashrc echo 'export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH' >> ~/.bashrc echo 'export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop' >> ~/.bashrc source ~/.bashrc

4.1.3 步骤3：配置文件编写（40分钟）

按前述core-site.xml、hdfs-site.xml、yarn-site.xml内容，编辑$HADOOP_HOME/etc/hadoop/下对应文件。特别注意：

core-site.xml中fs.defaultFS填hdfs://localhost:9000（伪分布式）
hdfs-site.xml中dfs.replication设为1（单机实验）
yarn-site.xml中yarn.resourcemanager.hostname填localhost

4.1.4 步骤4：格式化与启动（15分钟）

# 格式化NameNode（仅首次） hdfs namenode -format # 启动HDFS start-dfs.sh # 启动YARN start-yarn.sh # 验证进程 jps # 应看到：NameNode, DataNode, SecondaryNameNode, ResourceManager, NodeManager # 验证Web UI # HDFS: http://localhost:9870 # YARN: http://localhost:8088

4.1.5 步骤5：WordCount实战（45分钟）

# 1. 创建输入目录 hadoop fs -mkdir -p /input # 2. 上传测试文件（生成10MB随机文本） head -c 10M /dev/urandom | tr -dc 'a-zA-Z0-9 ' | head -c 10000000 > input.txt hadoop fs -put input.txt /input/ # 3. 运行WordCount（Hadoop自带） hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /input /output # 4. 查看结果 hadoop fs -cat /output/part-r-00000

关键观察点：

打开YARN Web UI（http://localhost:8088），点击Application ID，看Running Containers是否从0升到2（1个AM，1个Mapper）；
在Logs页签，点stdout，看是否有Input file(s) to be processed : file:/input/input.txt；
若卡在ACCEPTED，检查ResourceManager日志，大概率是yarn.nodemanager.resource.memory-mb设得太小，NodeManager拒绝启动Container。

4.2 分布式集群——Hadoop高可用集群搭建的避坑指南

从伪分布式升级到3节点HA集群，核心变化在hdfs-site.xml和yarn-site.xml。以下是生产级最小可行配置：

4.2.1 节点角色规划

主机名	NameNode	JournalNode	DataNode	ResourceManager	NodeManager
nn1	Active	Yes	Yes	Yes	Yes
nn2	Standby	Yes	Yes	Yes	Yes
dn1	—	Yes	Yes	—	Yes

注意：JournalNode必须部署在奇数节点（3或5），且不能全在同一个物理机，否则单点故障即HA失效。

4.2.2 HA核心配置补全

在hdfs-site.xml中追加：

<!-- 启用HA --> <property> <name>dfs.ha.automatic-failover.enabled</name> <value>true</value> </property> <!-- ZK地址 --> <property> <name>ha.zookeeper.quorum</name> <value>nn1:2181,nn2:2181,dn1:2181</value> </property> <!-- 故障转移代理 --> <property> <name>dfs.client.failover.proxy.provider.mycluster</name> <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value> </property>

在core-site.xml中，fs.defaultFS改为hdfs://mycluster。

4.2.3 初始化HA集群

# 1. 在所有节点启动JournalNode hdfs --daemon start journalnode # 2. 在nn1上格式化ZK（仅一次） hdfs zkfc -formatZK # 3. 在nn1上格式化NameNode hdfs namenode -format # 4. 在nn1上启动NameNode hdfs --daemon start namenode # 5. 在nn2上同步元数据（从nn1拉取） hdfs namenode -bootstrapStandby # 6. 在nn2上启动NameNode hdfs --daemon start namenode # 7. 在nn1和nn2上启动ZKFC（故障转移控制器） hdfs --daemon start zkfc

验证：访问http://nn1:9870和http://nn2:9870，一个显示Active，一个显示Standby。手动kill -9nn1的NameNode进程，30秒后nn2自动升为Active。

实操心得：ZKFC的-formatZK必须在所有JournalNode启动后执行，否则报Connection refused。且hdfs zkfc -formatZK只需执行一次，后续节点加入无需重复。

5. 常见问题与排查技巧实录：那些让你凌晨三点抓狂的真问题

5.1 典型问题速查表

现象	可能原因	排查命令	解决方案
`jps`看不到DataNode	SELinux阻止端口绑定	`sudo sestatus`	永久禁用SELinux
`hadoop fs -ls /`报`Connection refused`	`fs.defaultFS`地址错误或NameNode未启动	`netstat -tuln \| grep 9000`	检查`core-site.xml`，确认NameNode进程存活
WordCount卡在`ACCEPTED`	NodeManager内存不足或`aux-services`未配	`yarn node -list`	检查`yarn-site.xml`，增大`yarn.nodemanager.resource.memory-mb`
`hdfs dfsadmin -report`显示0 Live Nodes	DataNode未注册或网络不通	`telnet datanode-host 50010`	检查`hdfs-site.xml`中`dfs.datanode.address`，确保端口开放
`start-dfs.sh`报`No route to host`	SSH免密未生效	`ssh -o ConnectTimeout=5 datanode-host exit`	重做`ssh-copy-id`，检查`/etc/hosts`解析

5.2 高频致命错误深度解析

5.2.1 错误：`java.io.IOException: Failed on local exception: java.io.IOException: Resource temporarily unavailable`

场景：执行hadoop fs -put大文件时突然报错。
根因：Linuxulimit -n（文件描述符）耗尽。DataNode为每个块文件打开一个文件句柄，10GB文件按128MB块大小切分，需80+个句柄，加上日志、Socket等，轻松突破默认1024。
诊断：lsof -u hadoop \| wc -l查看hadoop用户打开文件数；cat /proc/$(pgrep -f "DataNode")/limits \| grep "Max open files"查看进程限制。
解决：按3.1节配置/etc/security/limits.conf，并重启DataNode。

5.2.2 错误：`org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=root, access=WRITE, inode="/":hadoop:hadoop:drwxr-xr-x`

场景：用root用户运行hadoop fs -mkdir /test报权限拒绝。
根因：HDFS权限检查基于Linux用户，hadoop用户创建的HDFS根目录，owner是hadoop，root用户无权写入。
诊断：hadoop fs -ls /查看/目录权限，确认owner。
解决：

方案1（推荐）：始终用hadoop用户操作，sudo su - hadoop；
方案2：临时赋权hadoop fs -chown root:root /（仅实验环境）；
方案3：关闭权限hdfs dfsadmin -setSafeMode leave && hdfs dfsadmin -saveNamespace（不推荐）。

5.2.3 错误：`Application application_1234567890_0001 failed 2 times due to AM Container for appattempt_1234567890_0001_000002 exited with exitCode: -1000`

场景：YARN Application反复失败，日志显示exitCode: -1000。
根因：YARN的Container被Linux OOM Killer杀死。-1000是YARN对OOM的特殊编码。
诊断：dmesg -T \| grep -i "killed process"查看内核日志；yarn logs -applicationId application_1234567890_0001 \| grep "OOM"。
解决：

降低yarn.nodemanager.resource.memory-mb，留足系统内存；
调大yarn.scheduler.maximum-allocation-mb，避免小Container碎片化；
在yarn-site.xml中加<property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value></property>关闭虚拟内存检查（慎用）。

5.3 生产环境必须做的五件事

日志轮转：Hadoop日志默认不轮转，hadoop-root-namenode-*.log可达几十GB。在$HADOOP_HOME/etc/hadoop/log4j.properties中，将hadoop.root.logger=INFO,RFA改为hadoop.root.logger=INFO,RFA,RFAS，并配置log4j.appender.RFAS.MaxFileSize=256MB。
磁盘健康监控：DataNode磁盘坏道会导致块损坏。用smartctl -a /dev/sdb定期扫描，脚本化加入crontab。
NameNode堆内存监控：jstat -gc $(pgrep -f "NameNode") 1s实时看GC频率。若FGCT（Full GC时间）>5s/分钟，需调大-Xmx。
HDFS容量预警：hdfs dfsadmin -report \| grep "Configured Capacity"获取总容量，hdfs dfsadmin -report \| grep "DFS Remaining%"获取剩余率。低于15%时触发告警。
定期EditsLog清理：SecondaryNameNode的CheckPoint不及时，EditsLog暴涨。在hdfs-site.xml中设<property><name>dfs.namenode.checkpoint.period</name><value>3600</value></property>（1小时）。

5.4 最后一个忠告：别迷信Ambari

“ambari部署hadoop集群”是热搜词，但Ambari本质是配置管理工具，不是魔法棒。它把core-site.xml等文件的修改，封装成Web表单，底层仍是SSH执行脚本。我见过太多团队：Ambari界面点“启动”，页面显示绿色√，但jps一看，DataNode根本没起来——因为Ambari没校验/data/hadoop磁盘空间，也没检查SELinux状态。真正的稳定性，来自你亲手敲过的每一行ulimit，读过的每一条dmesg，和凌晨三点盯着tail -f日志时，对那个OutOfMemoryError堆栈的肌肉记忆。Hadoop不是玩具，它是工业级数据底座。入门的第一课，永远不是“怎么装”，而是“装完后，世界为何会崩”。

查看全文

http://www.jsqmd.com/news/1058675/