当前位置：首页 > news >正文

Spark数据分析1_环境配置

news 2026/3/26 18:59:43

第3章大数据实验环境搭建（初学者整理版）

本章目标：
搭建一个完整的大数据实验环境，包括：

1️⃣ Linux系统
2️⃣ Hadoop
3️⃣ MySQL
4️⃣ Kafka
5️⃣ Anaconda + Python环境

所有软件都运行在Linux系统上。

一、Linux环境安装

1 下载Linux系统

推荐版本：

Ubuntu Kylin 16.04 LTS

原因：

对电脑配置要求低
与大数据软件兼容好

下载地址：

https://www.ubuntu.org.cn/download/ubuntu-kylin

版本选择：

内存	推荐
<2GB	32位
>4GB	64位

二、虚拟机安装Linux

推荐软件：

VMware Workstation

下载：

VMware-workstation-full-17.0.1.exe

1 创建虚拟机

VMware步骤：

创建新的虚拟机 → 典型安装 → 选择 ISO 镜像

选择：

ubuntukylin-16.04-desktop-amd64.iso

2 设置账户

例如：

用户名：dblab 密码：123456

3 虚拟机配置

建议配置：

配置	推荐
内存	≥4GB
磁盘	50GB - 100GB

4 打开终端

方法1：

CTRL + ALT + T

方法2：

点击

Terminal

三、安装 Hadoop 前准备

1 创建hadoop用户

在终端执行：

sudouseradd-mhadoop-s/bin/bash

设置密码

sudopasswdhadoop

加入管理员权限

sudoadduser hadoopsudo

2 更新软件源

sudoapt-getupdate

3 安装SSH

sudoapt-getinstallopenssh-server

测试SSH：

sshlocalhost

第一次输入：

yes

4 配置SSH免密码登录

进入ssh目录

cd~/.ssh

生成密钥

ssh-keygen-trsa

授权：

cat./id_rsa.pub>>./authorized_keys

测试：

sshlocalhost

无需密码即成功。

四、安装 Java 环境

Hadoop依赖Java。

1 创建JDK目录

cd/usr/libsudomkdirjvm

2 解压JDK

cd~/Downloadssudotar-zxvfjdk-8u371-linux-x64.tar.gz-C/usr/lib/jvm

3 配置环境变量

编辑文件：

vim~/.bashrc

加入：

exportJAVA_HOME=/usr/lib/jvm/jdk1.8.0_371exportJRE_HOME=${JAVA_HOME}/jreexportCLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexportPATH=${JAVA_HOME}/bin:$PATH

4 让环境变量生效

source~/.bashrc

5 测试Java

java-version

成功显示：

java version "1.8.0_371"

五、安装 Hadoop

推荐版本：

Hadoop 3.3.5

下载：

https://archive.apache.org/dist/hadoop/core/hadoop-3.3.5

1 解压Hadoop

sudotar-zxf~/下载/hadoop-3.3.5.tar.gz-C/usr/local

进入目录

cd/usr/local

重命名：

sudomvhadoop-3.3.5 hadoop

修改权限：

sudochown-Rhadoop ./hadoop

2 检查安装

cd/usr/local/hadoop ./bin/hadoop version

如果显示版本信息说明成功。

六、Hadoop三种运行模式

模式	说明
单机模式	本地运行
伪分布式	单机模拟集群
分布式	多机器集群

七、Hadoop单机模式

创建输入文件：

cd/usr/local/hadoopmkdirinput

复制配置文件：

cp./etc/hadoop/*.xml ./input

运行示例：

./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jargrep./input ./output'dfs[a-z.]+'

查看结果：

cat./output/*

如果再次运行需要删除：

rm-r./output

八、伪分布式配置

修改 core-site.xml

路径：

/usr/local/hadoop/etc/hadoop/core-site.xml

配置：

<configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property></configuration>

修改 hdfs-site.xml

<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.namenode.name.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property></configuration>

格式化NameNode

cd/usr/local/hadoop ./bin/hdfs namenode-format

成功显示：

successfully formatted

启动Hadoop

./sbin/start-dfs.sh

查看进程

jps

会看到：

NameNode DataNode SecondaryNameNode

九、HDFS测试

创建用户目录：

hdfs dfs-mkdir-p/user/hadoop

创建输入目录：

hdfs dfs-mkdirinput

上传文件：

hdfs dfs-put./etc/hadoop/*.xml input

运行MapReduce：

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.5.jargrepinput output'dfs[a-z.]+'

查看结果：

hdfs dfs-catoutput/*

十、安装 MySQL

更新软件源：

sudoapt-getupdate

安装：

sudoapt-getinstallmysql-server

启动MySQL

停止：

servicemysql stop

启动：

servicemysql start

登录MySQL

mysql-uroot-p

密码：

hadoop

十一、解决MySQL乱码

查看编码：

showvariableslike'char%';

修改配置：

vim/etc/mysql/mysql.conf.d/mysqld.cnf

加入：

character_set_server=utf8

重启：

servicemysql restart

十二、安装 Kafka

下载：

kafka_2.12-3.5.1.tgz

解压：

cd~/Downloadssudotar-zxvfkafka_2.12-3.5.1.tgz-C/usr/local

重命名：

sudomvkafka_2.12-3.5.1 kafka

启动 Zookeeper

cd/usr/local/kafka ./bin/zookeeper-server-start.sh config/zookeeper.properties

启动 Kafka

新终端：

./bin/kafka-server-start.sh config/server.properties

创建Topic

./bin/kafka-topics.sh--create\--zookeeperlocalhost:2181\--replication-factor1\--partitions1\--topicwordsendertest

查看Topic：

./bin/kafka-topics.sh--list--zookeeperlocalhost:2181

生产者

./bin/kafka-console-producer.sh\--broker-list localhost:9092\--topicwordsendertest

输入：

hello hadoop hello flink

消费者

./bin/kafka-console-consumer.sh\--bootstrap-server localhost:9092\--topicwordsendertest\--from-beginning

十三、安装 Anaconda

下载：

Anaconda3-2023.07-2-Linux-x86_64.sh

安装：

sh./Anaconda3-2023.07-2-Linux-x86_64.sh

安装过程中：

Do you accept license → yes

十四、配置Anaconda镜像

创建配置文件：

vim~/.condarc

写入：

channels:-defaultsshow_channel_urls:truedefault_channels:-https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main-https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free

十五、创建Python环境

Spark需要Python3.8。

创建环境：

conda create-npysparkpython=3.8

激活环境：

conda activate pyspark

测试：

python

退出：

exit()

总结

整个大数据环境包括：

Linux │ ├─ Java │ ├─ Hadoop │ ├─ MySQL │ ├─ Kafka │ └─ Anaconda + Python

这是Spark / Flink / 大数据课程实验的基础环境。

查看全文

http://www.jsqmd.com/news/489448/

从淮南到郑州：去ICC当编程竞赛的评委

差分包技术

选型效率提升10倍！沃虎电子亮出底牌：封装/模型秒下，样品一周必达

手术头灯摄像系统的技术特点：主刀第一视角影像采集

第9篇：含有限制条件的PI控制器设计

OpenClaw 安装教程（Windows + WSL）

《红色沙漠》帕维尔大陆，每一步都是新冒险！

2026年正点原子开发板移植教程——UBoot篇（5）：从ping不通到tftp成功，那些让你抓狂的PHY时序问题

2026年比较好的高校就业指导中心方案开发品牌推荐：高校就业指导中心方案采购/高校就业指导中心方案整体建设生产商 - 行业平台推荐

TSP算法小软件V7.0源代码（ubuntu24+lazarus4+sqlite3）

JAVA学习day01记录day01

Java 多线程核心知识点全总结（超详细）

# C++ STL set与map operator[]

2026年靠谱的心理测评大数据中心品牌推荐：学校心理测评大数据中心/心理测评大数据中心建设/心理测评大数据中心产品采购口碑优选公司 - 行业平台推荐

高考数学97分，我的“数学直觉“比140分更好用：指针：内存的门牌号系统

Java入门（类和对象）

C++编译期字符串加密

小白从零开始勇闯人工智能：LangChain 入门指南（上）

数据结构和算法之【递归】

C语言100篇：从入门到天花板第19篇静态变量static：修饰变量与函数的核心作用

人工降AI vs 工具降AI：哪种方式更适合你的论文

企业级openclaw本地私有化部署与云端部署的区别

2026年降AI工具新手入门指南：第一次用选这3款不踩坑

实验配置流水线：Hydra基本教程

MySQL的CRUD，约束，基本类型

【脉宽调制DCDC功率变换学习笔记005】不连续导通模式（DCM）中的Buck变换器

19、QTimer类(待补充)---------QT基础

全屋智能不被 “网” 住[特殊字符] Home Assistant+cpolar 解锁远程控家新体验

判断是不是素数题目

2026年比较好的VR身心调试系统采购品牌推荐：VR身心调试系统解决方案/VR身心调试系统资质齐全热门公司推荐 - 行业平台推荐

第3章 大数据实验环境搭建（初学者整理版）