当前位置：首页 > news >正文

Spark SQL详解（二）：RDD转换DataFrame与Spark SQL读写数据库

news 2026/8/2 0:34:31

摘要：本文深入讲解Spark SQL中RDD与DataFrame的互转机制，包括反射推断模式和编程式定义模式两种转换方式。同时系统讲解Spark SQL通过JDBC连接MySQL数据库的完整流程，涵盖依赖导入、数据读取、数据写入等实战操作，配合完整的Scala代码示例和常见错误排查。

一、RDD转换DataFrame

Spark提供了两种方法将RDD转换为DataFrame：利用反射机制推断RDD模式，以及使用编程方式定义RDD模式。两种方法各有适用场景，开发者可根据实际情况选择。

1.1 方法一：利用反射机制推断RDD模式

原理：通过定义case class，利用Spark的隐式转换机制，自动将RDD[CaseClass]转换为DataFrame。

核心特点：

简洁高效，代码量少
自动推断字段名和类型
必须使用case class（普通class不支持）
case class必须定义在main方法之外

完整代码实现：

importorg.apache.spark.rdd.RDDimportorg.apache.spark.sql.{DataFrame,SparkSession}objectRDDToDFByReflection{// case class必须放到main方法之外，伴生对象下// 因为隐式转换时会通过 伴生对象名.case类名 来调用caseclassPerson(name:String,age:Long)defmain(args:Array[String]):Unit={valspark=SparkSession.builder().master("local[*]").appName("RDD-To-DF-Reflection").getOrCreate()// 导入隐式转换，这里的spark是SparkSession对象，不是org.apache.spark包importspark.implicits._// 1. 读取文本文件，解析为RDD[Person]valrdd:RDD[Person]=spark.sparkContext.textFile("data/sql/people.txt").map(line=>line.split(",")).map(t=>Person(t(0).trim,t(1).trim.toLong))// 2. 隐式转换：RDD[Person] -> DataFramevaldf:DataFrame=rdd.toDF()// 3. 注册临时视图，执行SQL查询df.createOrReplaceTempView("people")spark.sql("SELECT * FROM people WHERE age > 20").show()spark.stop()}}

输入数据（people.txt）：

Tom, 21 Mike, 25 Andy, 18

运行结果：

+----+---+ |name|age| +----+---+ | Tom| 21| |Mike| 25| +----+---+

关键注意事项：

注意点	说明	错误后果
case class位置	必须放在main方法之外，伴生对象下	编译报错，找不到case类
implicits导入	`import spark.implicits._`中的spark是SparkSession对象	导入错误将无法隐式转换
数据类型匹配	case class字段类型需与数据匹配	类型转换异常
空值处理	数值类型建议用Long/Double	Int可能溢出

数据流转图解：

文本文件: "Tom, 21" "Mike, 25" "Andy, 18" ↓ textFile + map + map RDD[Person]: Person("Tom", 21) Person("Mike", 25) Person("Andy", 18) ↓ toDF() (隐式转换) DataFrame: +----+---+ |name|age| +----+---+ | Tom| 21| |Mike| 25| |Andy| 18| +----+---+

1.2 方法二：使用编程方式定义RDD模式

原理：通过StructType定义Schema（表头），通过Row定义每条记录，最后调用createDataFrame将两者拼接。

核心特点：

无需定义case class，更灵活
适合动态Schema场景（字段不确定）
代码稍繁琐，但不易出错
运行时类型安全

完整代码实现：

importorg.apache.spark.rdd.RDDimportorg.apache.spark.sql.{DataFrame,Row,SparkSession}importorg.apache.spark.sql.types.{IntegerType,StringType,StructField,StructType}objectRDDToDFByProgramming{defmain(args:Array[String]):Unit={valspark=SparkSession.builder().master("local[*]").appName("RDD-To-DF-Programming").getOrCreate()// Step 1: 制作表头 - 定义Schema结构valschema:StructType=StructType(Array(StructField("name",StringType,nullable=true),StructField("age",IntegerType,nullable=true)))// Step 2: 制作表中记录 - 读取文件生成RDD[Row]valrowRDD:RDD[Row]=spark.sparkContext.textFile("data/sql/people.txt").map(_.split(",")).map(attr=>Row(attr(0).trim,attr(1).trim.toInt))// Step 3: 拼接表头和记录 - 创建DataFramevalpeopleDF:DataFrame=spark.createDataFrame(rowRDD,schema)// 注册临时视图并查询peopleDF.createOrReplaceTempView("people")spark.sql("SELECT * FROM people WHERE age > 20").show()spark.stop()}}

运行结果（同上）：

+----+---+ |name|age| +----+---+ | Tom| 21| |Mike| 25| +----+---+

三个核心步骤详解：

步骤	操作	代码	作用
1	制作表头	`StructType(Array(StructField(...)))`	定义字段名、类型、可空性
2	制作记录	`RDD[Row]`	将原始数据转换为Row对象
3	拼接合并	`spark.createDataFrame(rowRDD, schema)`	将Schema和RowRDD合并为DataFrame

Row对象的创建方式：

// 方式1：按位置传入值（需与Schema顺序一致）valrow1=Row("Tom",21)valrow2=Row("Mike",25)// 方式2：通过索引访问值valname=row1.getString(0)// "Tom"valage=row1.getInt(1)// 21// 方式3：类型安全的获取（推荐）valname=row1.getAs[String](0)valage=row1.getAs[Int](1)

1.3 两种方法对比

特性	反射推断模式	编程式定义模式
代码量	少	较多
灵活性	低（需预定义case class）	高（动态定义Schema）
类型安全	编译时检查	运行时检查
适用场景	字段固定的结构化数据	字段动态变化的数据
性能	相同（底层都转为RDD）	相同
错误排查	相对困难	相对容易
case class	必须	不需要

选择建议：

字段固定、类型明确 → 反射推断模式（代码简洁）
字段动态、Schema不确定 → 编程式定义模式（灵活可控）

二、Spark SQL读写MySQL数据库

Spark SQL通过JDBC连接器可以方便地读写关系型数据库，本节以MySQL为例进行讲解。

2.1 导入依赖

在项目的pom.xml中添加MySQL JDBC驱动依赖：

<dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>8.0.31</version></dependency>

版本注意事项：

MySQL版本	JDBC驱动类	URL格式
MySQL 5.x	`com.mysql.jdbc.Driver`	`jdbc:mysql://host:3306/db`
MySQL 8.x	`com.mysql.cj.jdbc.Driver`	`jdbc:mysql://host:3306/db?serverTimezone=UTC`

注意：MySQL 8.0必须使用com.mysql.cj.jdbc.Driver，使用旧驱动会报错。

2.2 读取MySQL数据

通过spark.read.format("jdbc")读取数据库表数据。

完整代码：

importorg.apache.spark.sql.{DataFrame,SparkSession}objectReadMySQL{defmain(args:Array[String]):Unit={valspark=SparkSession.builder().master("local[*]").appName("Read-MySQL").getOrCreate()// 方式1：使用format("jdbc") + option链式配置valmysqlDF:DataFrame=spark.read.format("jdbc").option("url","jdbc:mysql://localhost:3306/spark").option("driver","com.mysql.cj.jdbc.Driver").option("dbtable","student").option("user","root").option("password","your_password").load()// 方式2：使用jdbc()方法（更简洁）valmysqlDF2=spark.read.jdbc("jdbc:mysql://localhost:3306/spark","student",properties)mysqlDF.show()spark.stop()}}

JDBC常用配置选项：

选项	必填	说明	示例
`url`	✅	JDBC连接URL	`jdbc:mysql://localhost:3306/spark`
`driver`	✅	JDBC驱动类名	`com.mysql.cj.jdbc.Driver`
`dbtable`	✅	表名或SQL子查询	`student`或`(SELECT * FROM student WHERE age>20) tmp`
`user`	✅	数据库用户名	`root`
`password`	✅	数据库密码	`123456`
`partitionColumn`	❌	分区列（用于并行读取）	`id`
`lowerBound`	❌	分区下界	`1`
`upperBound`	❌	分区上界	`10000`
`numPartitions`	❌	并行分区数	`4`
`fetchsize`	❌	每次获取行数	`1000`

运行结果：

+---+----+---+---+ | id|name|age|sex| +---+----+---+---+ | 1| Tom| 21| 男| | 2|Andy| 20| 女| +---+----+---+---+

并行读取优化：

// 通过分区列实现并行读取，提升大数据量读取性能valdf=spark.read.format("jdbc").option("url","jdbc:mysql://localhost:3306/spark").option("driver","com.mysql.cj.jdbc.Driver").option("dbtable","student").option("user","root").option("password","123456").option("partitionColumn","id")// 按id列分区.option("lowerBound","1")// 最小id.option("upperBound","1000")// 最大id.option("numPartitions","4")// 分4个分区并行读取.load()

2.3 向MySQL写入数据

通过df.write.mode().jdbc()将DataFrame数据写入数据库。

完整代码：

importorg.apache.spark.rdd.RDDimportorg.apache.spark.sql.{DataFrame,Row,SparkSession}importorg.apache.spark.sql.types.{IntegerType,StringType,StructField,StructType}importjava.util.PropertiesobjectWriteMySQL{defmain(args:Array[String]):Unit={valspark=SparkSession.builder().master("local[*]").appName("Write-MySQL").getOrCreate()// Step 1: 准备要写入的数据（从RDD创建）valrdd:RDD[Array[String]]=spark.sparkContext.parallelize(Array("3 Mike 22 男","4 Cindy 23 女")).map(_.split(" "))// Step 2: 定义Schema（表头）valschema:StructType=StructType(Array(StructField("id",IntegerType,true),StructField("name",StringType,true),StructField("age",IntegerType,true),StructField("sex",StringType,true)))// Step 3: 创建Row RDD（记录）valrowRDD:RDD[Row]=rdd.map(stu=>Row(stu(0).toInt,stu(1),stu(2).toInt,stu(3)))// Step 4: 创建DataFramevaldf:DataFrame=spark.createDataFrame(rowRDD,schema)// Step 5: 配置JDBC连接参数valprop=newProperties()prop.put("user","root")prop.put("password","your_password")prop.put("driver","com.mysql.cj.jdbc.Driver")// Step 6: 写入数据（append模式追加）df.write.mode("append").jdbc("jdbc:mysql://localhost:3306/spark","spark.student",prop)// 验证写入结果valresult=spark.read.format("jdbc").option("url","jdbc:mysql://localhost:3306/spark").option("driver","com.mysql.cj.jdbc.Driver").option("dbtable","spark.student").option("user","root").option("password","your_password").load()result.show()spark.stop()}}

写入模式说明：

模式	说明	适用场景
`append`	追加数据到已有表	增量写入
`overwrite`	先删除表数据再写入	全量覆盖
`ignore`	表存在则忽略，不写入	避免重复写入
`errorIfExists`	表存在则报错（默认）	防止误操作

写入前数据库表结构：

CREATETABLEspark.student(idINTPRIMARYKEY,nameVARCHAR(50),ageINT,sexVARCHAR(10));

写入后数据：

+---+-----+---+---+ | id| name|age|sex| +---+-----+---+---+ | 1| Tom| 21| 男| | 2| Andy| 20| 女| | 3| Mike| 22| 男| | 4|Cindy| 23| 女| +---+-----+---+---+

2.4 读写数据库完整流程图

读取流程: MySQL数据库 ↓ JDBC连接 (url, driver, user, password) ↓ spark.read.format("jdbc").option(...).load() ↓ DataFrame ↓ 数据处理/分析 写入流程: 原始数据 (RDD/集合/文件) ↓ 定义Schema + 创建Row RDD ↓ spark.createDataFrame(rowRDD, schema) ↓ DataFrame ↓ df.write.mode("append").jdbc(url, table, properties) ↓ MySQL数据库

三、常见问题排查

3.1 ClassNotFoundException: com.mysql.cj.jdbc.Driver

原因：缺少MySQL JDBC驱动依赖，或驱动类名错误。

解决：

确认pom.xml中已添加mysql-connector-java依赖
确认MySQL 8.x使用com.mysql.cj.jdbc.Driver，5.x使用com.mysql.jdbc.Driver
提交集群任务时，使用--jars参数携带驱动jar包

spark-submit--jarsmysql-connector-java-8.0.31.jar your_app.jar

3.2 时区错误：The server time zone value ‘xxx’ is unrecognized

原因：MySQL 8.0默认时区与JDBC驱动不匹配。

解决：在URL中添加时区参数

.option("url","jdbc:mysql://localhost:3306/spark?serverTimezone=UTC")

3.3 写入时表不存在

原因：目标表未提前创建。

解决：

方式1：提前在MySQL中创建表
方式2：使用df.write.mode("overwrite").option("createTableOptions", "...").jdbc(...)自动创建

3.4 数据类型不匹配

原因：DataFrame字段类型与数据库表字段类型不兼容。

解决：

检查Schema定义与数据库表结构是否一致
注意Spark的IntegerType对应MySQL的INT，LongType对应BIGINT
字符串长度不足时，调整MySQL字段的VARCHAR长度

四、总结

本文系统讲解了RDD与DataFrame的转换以及Spark SQL的数据库操作：

核心知识点

RDD转DataFrame两种方法：
- 反射推断模式：定义case class +import spark.implicits._+rdd.toDF()
- 编程式定义模式：StructType定义Schema +RDD[Row]创建记录 +createDataFrame()拼接
Spark SQL读取MySQL：
- 导入mysql-connector-java依赖
- 使用spark.read.format("jdbc").option(...).load()
- 关键参数：url、driver、dbtable、user、password
Spark SQL写入MySQL：
- 准备数据为DataFrame格式
- 使用df.write.mode("append").jdbc(url, table, properties)
- 支持append/overwrite/ignore/errorIfExists四种模式

方法选择指南

场景	推荐方法	原因
字段固定、类型明确	反射推断模式	代码简洁，自动推断
字段动态、Schema不确定	编程式定义模式	灵活可控，运行时安全
读取数据库全表	format(“jdbc”)	标准JDBC方式
大数据量读取	JDBC + 分区参数	并行读取，提升性能
增量写入数据库	write.mode(“append”)	不破坏已有数据
全量覆盖写入	write.mode(“overwrite”)	替换旧数据