当前位置：首页 > news >正文

Spark 大数据入门——从零搭建分布式计算环境

news 2026/6/21 6:42:47

Spark 是当前最流行的大数据计算引擎，相比 Hadoop MapReduce 性能提升 10~100 倍。本文从零搭建 Spark 开发环境，用 Python 编写第一个 Spark 程序。

一、Spark 是什么

Spark 是一个分布式计算框架，可以在成百上千台服务器上并行处理数据。

对比	Hadoop MapReduce	Spark
计算速度	慢（磁盘读写）	快 10~100 倍（内存计算）
易用性	Java 编写，代码量大	Python/Java/Scala 均可
适用场景	离线批处理	批处理 + SQL + 流处理 + 机器学习

二、环境搭建

1. 安装 Spark（Windows/Linux）

# 1. 下载 Spark（需预装 Java 8+）wgethttps://dlcdn.apache.org/spark/spark-3.5.0/spark-3.5.0-bin-hadoop3.tgz# 2. 解压tar-xzfspark-3.5.0-bin-hadoop3.tgzmvspark-3.5.0-bin-hadoop3 /opt/spark# 3. 配置环境变量exportSPARK_HOME=/opt/sparkexportPATH=$PATH:$SPARK_HOME/bin

2. 安装 PySpark

pipinstallpyspark

3. 验证安装

# 进入 Spark Shell（交互式环境）pyspark# 看到这个界面说明安装成功# Welcome to Spark version 3.5.0

三、核心概念

概念	说明
RDD	弹性分布式数据集，Spark 的核心抽象
DataFrame	带列名的分布式数据集（类似 Pandas）
SparkSession	Spark 应用的入口
Task	任务，被发送到 executor 执行
Partition	数据分区，每个分区对应一个 task

四、第一个 Spark 程序

1. 读取数据

frompyspark.sqlimportSparkSession# 创建 SparkSessionspark=SparkSession.builder \.appName("FirstSparkApp")\.getOrCreate()# 读取 CSV 文件df=spark.read.csv("students.csv",header=True,inferSchema=True)# 查看数据df.show(5)df.printSchema()

2. 数据转换

frompyspark.sql.functionsimportcol,avg,count# 筛选成绩大于 60 分的学生df.filter(col("score")>60).show()# 按班级分组统计平均分df.groupBy("class_name")\.agg(avg("score").alias("avg_score"),count("*").alias("student_count"))\.orderBy("avg_score",ascending=False)\.show()

五、实战：学生成绩统计分析

frompyspark.sqlimportSparkSessionfrompyspark.sql.functionsimportcol,avg,max,min,count,when# 创建会话spark=SparkSession.builder.appName("ScoreAnalysis").getOrCreate()# 读取数据df=spark.read.csv("scores.csv",header=True,inferSchema=True)# 1. 数据概览print(f"总记录数:{df.count()}")df.describe().show()# 2. 各班级平均分df.groupBy("class")\.agg(avg("score").alias("平均分"),max("score").alias("最高分"),min("score").alias("最低分"))\.orderBy("平均分",ascending=False)\.show()# 3. 成绩分布df.withColumn("等级",when(col("score")>=90,"优秀").when(col("score")>=80,"良好").when(col("score")>=70,"中等").when(col("score")>=60,"及格").otherwise("不及格")).groupBy("等级").agg(count("*").alias("人数"))\.orderBy("等级").show()spark.stop()

六、Spark SQL

Spark 支持用 SQL 语句查询数据，适合熟悉 SQL 的开发者：

# 将 DataFrame 注册为临时表df.createOrReplaceTempView("students")# 用 SQL 查询result=spark.sql(""" SELECT class_name, ROUND(AVG(score), 2) as avg_score, COUNT(*) as count FROM students WHERE score >= 60 GROUP BY class_name ORDER BY avg_score DESC """)result.show()

七、性能优化建议

1. 合理设置分区数

# 默认分区数偏小，大数据量时调整spark.conf.set("spark.sql.shuffle.partitions","200")

2. 使用缓存

# 频繁使用的数据缓存到内存df.cache()# 或df.persist()

3. 避免使用 UDF

# ❌ 慢：使用 Python UDFfrompyspark.sql.functionsimportudf# ✅ 快：使用内置函数frompyspark.sql.functionsimportwhen,col

总结

Spark 是大数据领域的核心技术，掌握它之后处理海量数据不再是难题。记住三步：

创建 SparkSession—— 入口
读取数据——spark.read.csv/json/parquet
数据转换——filter、groupBy、agg等操作

💡 觉得有用的话，点赞 + 关注【张老师技术栈】吧！每周更新 Java/Python/爬虫大数据实战干货，不让你白来。

查看全文

http://www.jsqmd.com/news/1053210/

3个创新技巧：如何用SMUDebugTool深度优化AMD Ryzen系统性能

基于因果推理的大语言模型去毒：精准定位注意力头实现安全可控生成

2026长沙思沁复读学校值不值得读，零套路避坑攻略实力测评 - myqiye

PICCO框架：结构化提示词设计，终结LLM应用开发中的“玄学”

5个可落地的AI变现用法：零代码、免费平台、7分钟见效

Ubuntu 16.04服务器初始化：安全加固与权限链路详解

2026西安元气玛特口碑推荐价格透明避坑攻略 - myqiye

Navicat密码解密工具：专业数据库连接密码恢复解决方案终极指南

如何为PDF添加真实扫描质感：3分钟免费在线工具指南

Qwen2.5-27B本地部署实战：硬件选型、推理引擎与生产运维全链路

TWR-KL46Z开发板实战：从ARM Cortex-M0+入门到低功耗物联网应用

如何让微信聊天记录不再消失？这个工具让你永久保存每一段珍贵对话

OpenClaw：轻量级AI工作流引擎，直连飞书微信实现私有化智能响应

嵌入式GUI开发实战：emWin多层显示与输入系统配置详解

5分钟上手Audio Annotator：免费开源音频标注工具完整指南

张量网络在机器学习中的应用：从高维数据压缩到模型可解释性

嵌入式语音处理实战：从G.726/G.729编解码到V.22bis调制解调器系统集成

抖音创作者作品批量采集：Python自动化工具终极指南

RaTA-Tool：基于检索增强的多模态大模型工具选择框架解析

Playwright与TestCafe：现代Web端到端测试框架实战对比

饰品AI生图企业客户口碑力荐，高认可度品牌盘点 - myqiye

汽车电子入门：基于MC9S08RN60与TWR开发板的8位MCU实战指南

5步掌握JPEXS Free Flash Decompiler：Flash文件反编译终极指南

MLMC梯度估计器：降低随机优化计算成本的方差缩减技术

Instagram GraphAPI集成指南

Steam成就管理器实战指南：高效管理游戏成就的技术解析

免费将Windows电脑变成专业级WiFi热点：VirtualRouter完全指南

SQL注入攻防实战：从sqli-labs靶场入门到手工注入与自动化工具利用

养老院潜规则的调查方式十大靠谱方法，价格透明与实力测评汇总 - myqiye

DSP5685x音频Codec低层API实战：阻塞/非阻塞模式与DMA驱动详解