当前位置: 首页 > news >正文

Spark 大数据入门——从零搭建分布式计算环境

Spark 是当前最流行的大数据计算引擎,相比 Hadoop MapReduce 性能提升 10~100 倍。本文从零搭建 Spark 开发环境,用 Python 编写第一个 Spark 程序。

一、Spark 是什么

Spark 是一个分布式计算框架,可以在成百上千台服务器上并行处理数据。

对比Hadoop MapReduceSpark
计算速度慢(磁盘读写)快 10~100 倍(内存计算)
易用性Java 编写,代码量大Python/Java/Scala 均可
适用场景离线批处理批处理 + SQL + 流处理 + 机器学习

二、环境搭建

1. 安装 Spark(Windows/Linux)

# 1. 下载 Spark(需预装 Java 8+)wgethttps://dlcdn.apache.org/spark/spark-3.5.0/spark-3.5.0-bin-hadoop3.tgz# 2. 解压tar-xzfspark-3.5.0-bin-hadoop3.tgzmvspark-3.5.0-bin-hadoop3 /opt/spark# 3. 配置环境变量exportSPARK_HOME=/opt/sparkexportPATH=$PATH:$SPARK_HOME/bin

2. 安装 PySpark

pipinstallpyspark

3. 验证安装

# 进入 Spark Shell(交互式环境)pyspark# 看到这个界面说明安装成功# Welcome to Spark version 3.5.0

三、核心概念

概念说明
RDD弹性分布式数据集,Spark 的核心抽象
DataFrame带列名的分布式数据集(类似 Pandas)
SparkSessionSpark 应用的入口
Task任务,被发送到 executor 执行
Partition数据分区,每个分区对应一个 task

四、第一个 Spark 程序

1. 读取数据

frompyspark.sqlimportSparkSession# 创建 SparkSessionspark=SparkSession.builder \.appName("FirstSparkApp")\.getOrCreate()# 读取 CSV 文件df=spark.read.csv("students.csv",header=True,inferSchema=True)# 查看数据df.show(5)df.printSchema()

2. 数据转换

frompyspark.sql.functionsimportcol,avg,count# 筛选成绩大于 60 分的学生df.filter(col("score")>60).show()# 按班级分组统计平均分df.groupBy("class_name")\.agg(avg("score").alias("avg_score"),count("*").alias("student_count"))\.orderBy("avg_score",ascending=False)\.show()

五、实战:学生成绩统计分析

frompyspark.sqlimportSparkSessionfrompyspark.sql.functionsimportcol,avg,max,min,count,when# 创建会话spark=SparkSession.builder.appName("ScoreAnalysis").getOrCreate()# 读取数据df=spark.read.csv("scores.csv",header=True,inferSchema=True)# 1. 数据概览print(f"总记录数:{df.count()}")df.describe().show()# 2. 各班级平均分df.groupBy("class")\.agg(avg("score").alias("平均分"),max("score").alias("最高分"),min("score").alias("最低分"))\.orderBy("平均分",ascending=False)\.show()# 3. 成绩分布df.withColumn("等级",when(col("score")>=90,"优秀").when(col("score")>=80,"良好").when(col("score")>=70,"中等").when(col("score")>=60,"及格").otherwise("不及格")).groupBy("等级").agg(count("*").alias("人数"))\.orderBy("等级").show()spark.stop()

六、Spark SQL

Spark 支持用 SQL 语句查询数据,适合熟悉 SQL 的开发者:

# 将 DataFrame 注册为临时表df.createOrReplaceTempView("students")# 用 SQL 查询result=spark.sql(""" SELECT class_name, ROUND(AVG(score), 2) as avg_score, COUNT(*) as count FROM students WHERE score >= 60 GROUP BY class_name ORDER BY avg_score DESC """)result.show()

七、性能优化建议

1. 合理设置分区数

# 默认分区数偏小,大数据量时调整spark.conf.set("spark.sql.shuffle.partitions","200")

2. 使用缓存

# 频繁使用的数据缓存到内存df.cache()# 或df.persist()

3. 避免使用 UDF

# ❌ 慢:使用 Python UDFfrompyspark.sql.functionsimportudf# ✅ 快:使用内置函数frompyspark.sql.functionsimportwhen,col

总结

Spark 是大数据领域的核心技术,掌握它之后处理海量数据不再是难题。记住三步:

  1. 创建 SparkSession—— 入口
  2. 读取数据——spark.read.csv/json/parquet
  3. 数据转换——filtergroupByagg等操作

💡 觉得有用的话,点赞 + 关注【张老师技术栈】吧!每周更新 Java/Python/爬虫 大数据 实战干货,不让你白来。

http://www.jsqmd.com/news/1053210/

相关文章:

  • 3个创新技巧:如何用SMUDebugTool深度优化AMD Ryzen系统性能
  • 基于因果推理的大语言模型去毒:精准定位注意力头实现安全可控生成
  • 2026长沙思沁复读学校值不值得读,零套路避坑攻略实力测评 - myqiye
  • PICCO框架:结构化提示词设计,终结LLM应用开发中的“玄学”
  • 5个可落地的AI变现用法:零代码、免费平台、7分钟见效
  • Ubuntu 16.04服务器初始化:安全加固与权限链路详解
  • 2026西安元气玛特口碑推荐 价格透明避坑攻略 - myqiye
  • Navicat密码解密工具:专业数据库连接密码恢复解决方案终极指南
  • 如何为PDF添加真实扫描质感:3分钟免费在线工具指南
  • Qwen2.5-27B本地部署实战:硬件选型、推理引擎与生产运维全链路
  • TWR-KL46Z开发板实战:从ARM Cortex-M0+入门到低功耗物联网应用
  • 如何让微信聊天记录不再消失?这个工具让你永久保存每一段珍贵对话
  • OpenClaw:轻量级AI工作流引擎,直连飞书微信实现私有化智能响应
  • 嵌入式GUI开发实战:emWin多层显示与输入系统配置详解
  • 5分钟上手Audio Annotator:免费开源音频标注工具完整指南
  • 张量网络在机器学习中的应用:从高维数据压缩到模型可解释性
  • 嵌入式语音处理实战:从G.726/G.729编解码到V.22bis调制解调器系统集成
  • 抖音创作者作品批量采集:Python自动化工具终极指南
  • RaTA-Tool:基于检索增强的多模态大模型工具选择框架解析
  • Playwright与TestCafe:现代Web端到端测试框架实战对比
  • 饰品AI生图企业客户口碑力荐,高认可度品牌盘点 - myqiye
  • 汽车电子入门:基于MC9S08RN60与TWR开发板的8位MCU实战指南
  • 5步掌握JPEXS Free Flash Decompiler:Flash文件反编译终极指南
  • MLMC梯度估计器:降低随机优化计算成本的方差缩减技术
  • Instagram GraphAPI集成指南
  • Steam成就管理器实战指南:高效管理游戏成就的技术解析
  • 免费将Windows电脑变成专业级WiFi热点:VirtualRouter完全指南
  • SQL注入攻防实战:从sqli-labs靶场入门到手工注入与自动化工具利用
  • 养老院潜规则的调查方式十大靠谱方法,价格透明与实力测评汇总 - myqiye
  • DSP5685x音频Codec低层API实战:阻塞/非阻塞模式与DMA驱动详解