跟着豆包学AI第三天(Windows版本)内容解析补充
第三天的内容比较多,程序以及配置文件比较杂,故进行这次补充,对配置文件和代码进行相关补充。
1. SSH 免密登录配置
sudo apt install openssh-server -y sudo service ssh start sudo systemctl enable ssh ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 600 ~/.ssh/authorized_keys chmod 700 ~/.ssh ssh localhost- 作用:让
start-dfs.sh脚本可以免密码通过 SSH 启动本地的 Hadoop 进程。 - 关键说明:
openssh-server:安装 SSH 服务,否则无法接受 SSH 连接。ssh-keygen:生成一对公钥和私钥,用于身份验证。cat id_rsa.pub >> authorized_keys:把公钥加入授权列表,实现免密登录。chmod:修改权限,避免 SSH 因权限过高而拒绝使用密钥。ssh localhost:测试免密登录是否成功。
2. Hadoop 核心配置修改
nano ~/hadoop/etc/hadoop/hadoop-env.sh # 末尾添加 export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64- 作用:告诉 Hadoop 去哪里找 Java 环境。
- 关键说明:Hadoop 运行必须依赖 JDK,
JAVA_HOME配置错误会导致 NameNode 无法启动。
nano ~/hadoop/etc/hadoop/core-site.xml<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>- 作用:定义 HDFS 的默认文件系统地址,这里指向本地的 9000 端口。
nano ~/hadoop/etc/hadoop/hdfs-site.xml<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>- 作用:设置数据块的副本数,伪分布式环境下设为 1 即可。
3. 环境变量配置
nano ~/.bashrc # 末尾添加 export HADOOP_HOME=$HOME/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin source ~/.bashrc hadoop version- 作用:让系统能在任意路径下找到
hadoop、start-dfs.sh等命令。 - 关键说明:
source ~/.bashrc让配置立即生效,不用重启终端。
4. HDFS 格式化
hdfs namenode -format- 作用:初始化 NameNode 的元数据目录,创建文件系统的命名空间。
- 重要提醒:这个命令只能执行一次,重复执行会导致数据丢失!
5. 启动与停止 Hadoop
start-dfs.sh start-yarn.sh jps stop-all.shstart-dfs.sh:启动 HDFS 服务(NameNode、DataNode、SecondaryNameNode)。start-yarn.sh:启动 YARN 服务(ResourceManager、NodeManager)。jps:查看 Java 进程,验证 5 个核心进程是否都已启动。stop-all.sh:停止所有 Hadoop 服务。
6. HDFS Web UI:http://localhost:9870
- 代表什么:HDFS 文件系统的管理界面。
- 核心作用:
- 浏览文件系统:查看 HDFS 上存储的文件和目录。
- 监控节点状态:查看 NameNode、DataNode 的运行状态。
- 查看日志信息:快速定位 HDFS 运行中的问题。
- 查看数据块信息:了解文件的存储位置和副本情况。
7. YARN Web UI:http://localhost:8088
- 代表什么:YARN 资源管理器的管理界面。
- 核心作用:
- 监控集群资源:查看 CPU、内存等资源的使用情况。
- 管理应用程序:查看正在运行、已完成的 MapReduce/Spark 任务。
- 查看任务日志:排查任务运行失败的原因。
- 监控节点状态:查看 NodeManager 的健康状态。
8. 这次操作的完整流程回顾
- 安装并配置 SSH,解决了
start-dfs.sh的连接拒绝问题。 - 配置 Hadoop 的核心文件,定义了文件系统和数据副本规则。
- 格式化 HDFS,初始化了文件系统。
- 启动 Hadoop 服务,验证了 5 个核心进程都已运行。
- 发现并解决了 Hadoop 3.x 端口变更的问题,成功访问了两个 Web UI。
