当前位置: 首页 > news >正文

Mysql入湖Iceberg

Mysql入湖Iceberg

使用Scala实现Spark高可用集群读取Mysql数据写入Iceberg数据湖,数据存储于Hadoop高可用集群

  • Spark 3.3.3
  • Hadoop 3.3.6
  • Iceberg 1.3.0

代码

packagecom.czl.datalake.template.iceberg.mysqlimportorg.apache.spark.sql.SparkSessionobjectTest{defmain(args:Array[String]):Unit={//windows环境测试需要配置// System.setProperty("hadoop.home.dir", "D://hadoop3.3.0")// System.setProperty("HADOOP_USER_NAME", "czl")valspark=SparkSession.builder().appName("mysqlToIceberg").config("spark.sql.catalog.czlCatalog","org.apache.iceberg.spark.SparkCatalog").config("spark.sql.catalog.czlCatalog.type","hadoop")//hadoop文件系统路径.config("spark.sql.catalog.czlCatalog.warehouse","/data").getOrCreate()try{// 1. 读取MySQL数据valmysqlDF=spark.read.format("jdbc").option("url","jdbc:mysql://10.10.10.10:6033").option("driver","com.mysql.cj.jdbc.Driver").option("user","root").option("password","root")//库名.表名.option("dbtable","testDb.testTable").load()//写入Iceberg表mysqlDF.write.format("iceberg")//存储在hadoop上的,库名.表名.save("czlCatalog.testDb.testTable")}catch{casee:Exception=>e.printStackTrace()}finally{spark.stop()}}}

依赖参考

<?xml version="1.0" encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><parent><artifactId>dataLake-template-iceberg</artifactId><groupId>com.czl</groupId><version>1.0</version></parent><modelVersion>4.0.0</modelVersion><artifactId>dataLake-template-iceberg-spark-mysql</artifactId><properties><maven.compiler.source>8</maven.compiler.source><maven.compiler.target>8</maven.compiler.target></properties><dependencies><dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>8.0.24</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.12</artifactId><version>3.3.3</version></dependency><dependency><groupId>org.apache.iceberg</groupId><artifactId>iceberg-spark-runtime-3.3_2.12</artifactId><version>1.3.0</version></dependency></dependencies><build><plugins><plugin><groupId>org.scala-tools</groupId><artifactId>maven-scala-plugin</artifactId><version>2.15.2</version><executions><execution><goals><!--编译源码--><goal>compile</goal><!--编译测试源码--><goal>testCompile</goal></goals></execution></executions></plugin></plugins></build></project>

提示

  • core-site.xml,hdfs-site.xml文件放置在resources文件夹下,以便于识别到Hadoop集群
  • Spark高可用集群,每个节点上传mysql-connector-java-8.0.33.jariceberg-spark-runtime-3.3_2.12-1.3.0.jar这两个必须使用的依赖。

本地模式提交

./spark-submit --master local[*]--class com.czl.datalake.template.iceberg.mysql.Test /opt/dataLake-template-iceberg-spark-mysql-1.0.jar

集群模式提交,jar在本地

./spark-submit --master spark://node1:7077 --deploy-mode cluster --class com.czl.datalake.template.iceberg.mysql.Test /opt/dataLake-template-iceberg-spark-mysql-1.0.jar

集群模式提交,jar在Hadoop

./spark-submit --master spark://node1:7077 --deploy-mode cluster --class com.czl.datalake.template.iceberg.mysql.Test hdfs://ling//workspace/project/dataLake-template-iceberg-spark-mysql-1.0.jar

Yarn模式提交,jar在Hadoop

./spark-submit --masteryarn--deploy-mode cluster --class com.czl.datalake.template.iceberg.mysql.Test hdfs://ling//workspace/project/dataLake-template-iceberg-spark-mysql-1.0.jar
http://www.jsqmd.com/news/99578/

相关文章:

  • TensorFlow-GPU 2.5安装全流程指南
  • 2025防伪溯源服务商TOP5权威测评:北京信飞智创市场口碑 - myqiye
  • SGLang部署Qwen3-32B本地大模型实战
  • LobeChat能否用于构建心理咨询机器人?伦理边界讨论
  • LobeChat能否背单词?语言学习新模式
  • 2025年12月数字人厂商综合实力榜单发布,揭示数字人企业三大演进方向 - 博客万
  • LobeChat能否进入元宇宙?三维空间交互设想
  • 2025Deepseek知识库建设方案商部署优选清单:企业知识库部署厂商全收录 - 品牌2026
  • 重磅!原中科院2区TOP期刊,因学术造假,被踢出SCI!
  • 代码重构艺术的技术文章大纲
  • 常用块标签和三种列表
  • 年前可见刊!版面费破天荒$399,只要格式OK基本无返修直录
  • SCA这东西,别光会用,得搞懂它到底是怎么回事
  • 数据治理之“元数据”
  • Spring Boot接口添加响应头的核心方案
  • 微软 Office 2024:全场景办公软件效率利器下载安装免费激活
  • Docker极简入门实战大纲
  • Kotaemon:开源RAG框架的混合检索突破
  • LobeChat能否驾驶无人机?空中任务指挥官
  • C/C++“智慧药房”叫号大屏系统[2025-12-16]
  • 2026留学语言培训价值榜发布:多次元教育以98.6分引领行业从规模竞争走向质量深耕 - 速递信息
  • AI 付费模式终极对比:ChatGPT、Gemini、Claude 定价策略拆解,谁最值得买单? - poloai
  • Wan2.2-T2V-A14B:16倍压缩与双专家架构突破
  • 大数据环境下数据仓库的微服务架构
  • 2025年隐形车衣靠谱品牌推荐,森巴特隐形车衣易清洁吗、耐化 - 工业品牌热点
  • TensorFlow-GPU安装全指南:版本匹配与实操避坑
  • 2025年景洪家装设计公司排名推荐,景洪装修设计哪家好 - 工业推荐榜
  • 利用AI agents追踪内部交易:洞察公司内部信心
  • 解决方案 | 笔记本usb接口电源供电不足、usb失效、type-c接口失效的两种解决办法
  • 从认知自我到行为塑造,自我管理经典必读书籍推荐