Spark数据分析1_环境配置
第3章 大数据实验环境搭建(初学者整理版)
本章目标:
搭建一个完整的大数据实验环境,包括:
1️⃣ Linux系统
2️⃣ Hadoop
3️⃣ MySQL
4️⃣ Kafka
5️⃣ Anaconda + Python环境
所有软件都运行在Linux系统上。
一、Linux环境安装
1 下载Linux系统
推荐版本:
Ubuntu Kylin 16.04 LTS原因:
- 对电脑配置要求低
- 与大数据软件兼容好
下载地址:
https://www.ubuntu.org.cn/download/ubuntu-kylin版本选择:
| 内存 | 推荐 |
|---|---|
| <2GB | 32位 |
| >4GB | 64位 |
二、虚拟机安装Linux
推荐软件:
VMware Workstation下载:
VMware-workstation-full-17.0.1.exe1 创建虚拟机
VMware步骤:
创建新的虚拟机 → 典型安装 → 选择 ISO 镜像选择:
ubuntukylin-16.04-desktop-amd64.iso2 设置账户
例如:
用户名:dblab 密码:1234563 虚拟机配置
建议配置:
| 配置 | 推荐 |
|---|---|
| 内存 | ≥4GB |
| 磁盘 | 50GB - 100GB |
4 打开终端
方法1:
CTRL + ALT + T方法2:
点击
Terminal三、安装 Hadoop 前准备
1 创建hadoop用户
在终端执行:
sudouseradd-mhadoop-s/bin/bash设置密码
sudopasswdhadoop加入管理员权限
sudoadduser hadoopsudo2 更新软件源
sudoapt-getupdate3 安装SSH
sudoapt-getinstallopenssh-server测试SSH:
sshlocalhost第一次输入:
yes4 配置SSH免密码登录
进入ssh目录
cd~/.ssh生成密钥
ssh-keygen-trsa授权:
cat./id_rsa.pub>>./authorized_keys测试:
sshlocalhost无需密码即成功。
四、安装 Java 环境
Hadoop依赖Java。
1 创建JDK目录
cd/usr/libsudomkdirjvm2 解压JDK
cd~/Downloadssudotar-zxvfjdk-8u371-linux-x64.tar.gz-C/usr/lib/jvm3 配置环境变量
编辑文件:
vim~/.bashrc加入:
exportJAVA_HOME=/usr/lib/jvm/jdk1.8.0_371exportJRE_HOME=${JAVA_HOME}/jreexportCLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexportPATH=${JAVA_HOME}/bin:$PATH4 让环境变量生效
source~/.bashrc5 测试Java
java-version成功显示:
java version "1.8.0_371"五、安装 Hadoop
推荐版本:
Hadoop 3.3.5下载:
https://archive.apache.org/dist/hadoop/core/hadoop-3.3.51 解压Hadoop
sudotar-zxf~/下载/hadoop-3.3.5.tar.gz-C/usr/local进入目录
cd/usr/local重命名:
sudomvhadoop-3.3.5 hadoop修改权限:
sudochown-Rhadoop ./hadoop2 检查安装
cd/usr/local/hadoop ./bin/hadoop version如果显示版本信息说明成功。
六、Hadoop三种运行模式
| 模式 | 说明 |
|---|---|
| 单机模式 | 本地运行 |
| 伪分布式 | 单机模拟集群 |
| 分布式 | 多机器集群 |
七、Hadoop单机模式
创建输入文件:
cd/usr/local/hadoopmkdirinput复制配置文件:
cp./etc/hadoop/*.xml ./input运行示例:
./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jargrep./input ./output'dfs[a-z.]+'查看结果:
cat./output/*如果再次运行需要删除:
rm-r./output八、伪分布式配置
修改 core-site.xml
路径:
/usr/local/hadoop/etc/hadoop/core-site.xml配置:
<configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property></configuration>修改 hdfs-site.xml
<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.namenode.name.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property></configuration>格式化NameNode
cd/usr/local/hadoop ./bin/hdfs namenode-format成功显示:
successfully formatted启动Hadoop
./sbin/start-dfs.sh查看进程
jps会看到:
NameNode DataNode SecondaryNameNode九、HDFS测试
创建用户目录:
hdfs dfs-mkdir-p/user/hadoop创建输入目录:
hdfs dfs-mkdirinput上传文件:
hdfs dfs-put./etc/hadoop/*.xml input运行MapReduce:
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.5.jargrepinput output'dfs[a-z.]+'查看结果:
hdfs dfs-catoutput/*十、安装 MySQL
更新软件源:
sudoapt-getupdate安装:
sudoapt-getinstallmysql-server启动MySQL
停止:
servicemysql stop启动:
servicemysql start登录MySQL
mysql-uroot-p密码:
hadoop十一、解决MySQL乱码
查看编码:
showvariableslike'char%';修改配置:
vim/etc/mysql/mysql.conf.d/mysqld.cnf加入:
character_set_server=utf8重启:
servicemysql restart十二、安装 Kafka
下载:
kafka_2.12-3.5.1.tgz解压:
cd~/Downloadssudotar-zxvfkafka_2.12-3.5.1.tgz-C/usr/local重命名:
sudomvkafka_2.12-3.5.1 kafka启动 Zookeeper
cd/usr/local/kafka ./bin/zookeeper-server-start.sh config/zookeeper.properties启动 Kafka
新终端:
./bin/kafka-server-start.sh config/server.properties创建Topic
./bin/kafka-topics.sh--create\--zookeeperlocalhost:2181\--replication-factor1\--partitions1\--topicwordsendertest查看Topic:
./bin/kafka-topics.sh--list--zookeeperlocalhost:2181生产者
./bin/kafka-console-producer.sh\--broker-list localhost:9092\--topicwordsendertest输入:
hello hadoop hello flink消费者
./bin/kafka-console-consumer.sh\--bootstrap-server localhost:9092\--topicwordsendertest\--from-beginning十三、安装 Anaconda
下载:
Anaconda3-2023.07-2-Linux-x86_64.sh安装:
sh./Anaconda3-2023.07-2-Linux-x86_64.sh安装过程中:
Do you accept license → yes十四、配置Anaconda镜像
创建配置文件:
vim~/.condarc写入:
channels:-defaultsshow_channel_urls:truedefault_channels:-https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main-https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free十五、创建Python环境
Spark需要Python3.8。
创建环境:
conda create-npysparkpython=3.8激活环境:
conda activate pyspark测试:
python退出:
exit()总结
整个大数据环境包括:
Linux │ ├─ Java │ ├─ Hadoop │ ├─ MySQL │ ├─ Kafka │ └─ Anaconda + Python这是Spark / Flink / 大数据课程实验的基础环境。
