当前位置: 首页 > news >正文

Spark数据分析1_环境配置

第3章 大数据实验环境搭建(初学者整理版)

本章目标:
搭建一个完整的大数据实验环境,包括:

1️⃣ Linux系统
2️⃣ Hadoop
3️⃣ MySQL
4️⃣ Kafka
5️⃣ Anaconda + Python环境

所有软件都运行在Linux系统上。


一、Linux环境安装

1 下载Linux系统

推荐版本:

Ubuntu Kylin 16.04 LTS

原因:

  • 对电脑配置要求低
  • 与大数据软件兼容好

下载地址:

https://www.ubuntu.org.cn/download/ubuntu-kylin

版本选择:

内存推荐
<2GB32位
>4GB64位

二、虚拟机安装Linux

推荐软件:

VMware Workstation

下载:

VMware-workstation-full-17.0.1.exe

1 创建虚拟机

VMware步骤:

创建新的虚拟机 → 典型安装 → 选择 ISO 镜像

选择:

ubuntukylin-16.04-desktop-amd64.iso

2 设置账户

例如:

用户名:dblab 密码:123456

3 虚拟机配置

建议配置:

配置推荐
内存≥4GB
磁盘50GB - 100GB

4 打开终端

方法1:

CTRL + ALT + T

方法2:

点击

Terminal

三、安装 Hadoop 前准备

1 创建hadoop用户

在终端执行:

sudouseradd-mhadoop-s/bin/bash

设置密码

sudopasswdhadoop

加入管理员权限

sudoadduser hadoopsudo

2 更新软件源

sudoapt-getupdate

3 安装SSH

sudoapt-getinstallopenssh-server

测试SSH:

sshlocalhost

第一次输入:

yes

4 配置SSH免密码登录

进入ssh目录

cd~/.ssh

生成密钥

ssh-keygen-trsa

授权:

cat./id_rsa.pub>>./authorized_keys

测试:

sshlocalhost

无需密码即成功。


四、安装 Java 环境

Hadoop依赖Java。


1 创建JDK目录

cd/usr/libsudomkdirjvm

2 解压JDK

cd~/Downloadssudotar-zxvfjdk-8u371-linux-x64.tar.gz-C/usr/lib/jvm

3 配置环境变量

编辑文件:

vim~/.bashrc

加入:

exportJAVA_HOME=/usr/lib/jvm/jdk1.8.0_371exportJRE_HOME=${JAVA_HOME}/jreexportCLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexportPATH=${JAVA_HOME}/bin:$PATH

4 让环境变量生效

source~/.bashrc

5 测试Java

java-version

成功显示:

java version "1.8.0_371"

五、安装 Hadoop

推荐版本:

Hadoop 3.3.5

下载:

https://archive.apache.org/dist/hadoop/core/hadoop-3.3.5

1 解压Hadoop

sudotar-zxf~/下载/hadoop-3.3.5.tar.gz-C/usr/local

进入目录

cd/usr/local

重命名:

sudomvhadoop-3.3.5 hadoop

修改权限:

sudochown-Rhadoop ./hadoop

2 检查安装

cd/usr/local/hadoop ./bin/hadoop version

如果显示版本信息说明成功。


六、Hadoop三种运行模式

模式说明
单机模式本地运行
伪分布式单机模拟集群
分布式多机器集群

七、Hadoop单机模式

创建输入文件:

cd/usr/local/hadoopmkdirinput

复制配置文件:

cp./etc/hadoop/*.xml ./input

运行示例:

./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jargrep./input ./output'dfs[a-z.]+'

查看结果:

cat./output/*

如果再次运行需要删除:

rm-r./output

八、伪分布式配置

修改 core-site.xml

路径:

/usr/local/hadoop/etc/hadoop/core-site.xml

配置:

<configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property></configuration>

修改 hdfs-site.xml

<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.namenode.name.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property></configuration>

格式化NameNode

cd/usr/local/hadoop ./bin/hdfs namenode-format

成功显示:

successfully formatted

启动Hadoop

./sbin/start-dfs.sh

查看进程

jps

会看到:

NameNode DataNode SecondaryNameNode

九、HDFS测试

创建用户目录:

hdfs dfs-mkdir-p/user/hadoop

创建输入目录:

hdfs dfs-mkdirinput

上传文件:

hdfs dfs-put./etc/hadoop/*.xml input

运行MapReduce:

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.5.jargrepinput output'dfs[a-z.]+'

查看结果:

hdfs dfs-catoutput/*

十、安装 MySQL

更新软件源:

sudoapt-getupdate

安装:

sudoapt-getinstallmysql-server

启动MySQL

停止:

servicemysql stop

启动:

servicemysql start

登录MySQL

mysql-uroot-p

密码:

hadoop

十一、解决MySQL乱码

查看编码:

showvariableslike'char%';

修改配置:

vim/etc/mysql/mysql.conf.d/mysqld.cnf

加入:

character_set_server=utf8

重启:

servicemysql restart

十二、安装 Kafka

下载:

kafka_2.12-3.5.1.tgz

解压:

cd~/Downloadssudotar-zxvfkafka_2.12-3.5.1.tgz-C/usr/local

重命名:

sudomvkafka_2.12-3.5.1 kafka

启动 Zookeeper

cd/usr/local/kafka ./bin/zookeeper-server-start.sh config/zookeeper.properties

启动 Kafka

新终端:

./bin/kafka-server-start.sh config/server.properties

创建Topic

./bin/kafka-topics.sh--create\--zookeeperlocalhost:2181\--replication-factor1\--partitions1\--topicwordsendertest

查看Topic:

./bin/kafka-topics.sh--list--zookeeperlocalhost:2181

生产者

./bin/kafka-console-producer.sh\--broker-list localhost:9092\--topicwordsendertest

输入:

hello hadoop hello flink

消费者

./bin/kafka-console-consumer.sh\--bootstrap-server localhost:9092\--topicwordsendertest\--from-beginning

十三、安装 Anaconda

下载:

Anaconda3-2023.07-2-Linux-x86_64.sh

安装:

sh./Anaconda3-2023.07-2-Linux-x86_64.sh

安装过程中:

Do you accept license → yes

十四、配置Anaconda镜像

创建配置文件:

vim~/.condarc

写入:

channels:-defaultsshow_channel_urls:truedefault_channels:-https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main-https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free

十五、创建Python环境

Spark需要Python3.8。

创建环境:

conda create-npysparkpython=3.8

激活环境:

conda activate pyspark

测试:

python

退出:

exit()

总结

整个大数据环境包括:

Linux │ ├─ Java │ ├─ Hadoop │ ├─ MySQL │ ├─ Kafka │ └─ Anaconda + Python

这是Spark / Flink / 大数据课程实验的基础环境

http://www.jsqmd.com/news/489448/

相关文章:

  • 从淮南到郑州:去ICC当编程竞赛的评委
  • 差分包技术
  • 选型效率提升10倍!沃虎电子亮出底牌:封装/模型秒下,样品一周必达
  • 手术头灯摄像系统的技术特点:主刀第一视角影像采集
  • 第9篇:含有限制条件的PI控制器设计
  • OpenClaw 安装教程(Windows + WSL)
  • 《红色沙漠》帕维尔大陆,每一步都是新冒险!
  • 2026年正点原子开发板移植教程——UBoot篇(5):从ping不通到tftp成功,那些让你抓狂的PHY时序问题
  • 2026年比较好的高校就业指导中心方案开发品牌推荐:高校就业指导中心方案采购/高校就业指导中心方案整体建设生产商 - 行业平台推荐
  • TSP算法小软件V7.0源代码(ubuntu24+lazarus4+sqlite3)
  • JAVA学习day01记录day01
  • Java 多线程核心知识点全总结(超详细)
  • # C++ STL set与map operator[]
  • 2026年靠谱的心理测评大数据中心品牌推荐:学校心理测评大数据中心/心理测评大数据中心建设/心理测评大数据中心产品采购口碑优选公司 - 行业平台推荐
  • 高考数学97分,我的“数学直觉“比140分更好用:指针:内存的门牌号系统
  • Java入门(类和对象)
  • C++编译期字符串加密
  • 小白从零开始勇闯人工智能:LangChain 入门指南(上)
  • 数据结构和算法之【递归】
  • C语言100篇:从入门到天花板 第19篇 静态变量static:修饰变量与函数的核心作用
  • 人工降AI vs 工具降AI:哪种方式更适合你的论文
  • 企业级openclaw本地私有化部署与云端部署的区别
  • 2026年降AI工具新手入门指南:第一次用选这3款不踩坑
  • 实验配置流水线:Hydra基本教程
  • MySQL的CRUD,约束,基本类型
  • 【脉宽调制DCDC功率变换学习笔记005】不连续导通模式(DCM)中的Buck变换器
  • 19、QTimer类(待补充)---------QT基础
  • 全屋智能不被 “网” 住[特殊字符] Home Assistant+cpolar 解锁远程控家新体验
  • 判断是不是素数题目
  • 2026年比较好的VR身心调试系统采购品牌推荐:VR身心调试系统解决方案/VR身心调试系统资质齐全热门公司推荐 - 行业平台推荐