当前位置: 首页 > news >正文

学习进度 9

DataFrame 其实是带列名的分布式表格,和 MySQL 里的表、Pandas 里的 DataFrame 逻辑差不多,比纯手写 RDD 算子简单太多。比如之前用 RDD 统计文本行数,得写sc.textFile("file.txt").count(),而 DataFrame 可以直接读成表结构,用类 SQL 的语法操作,对新手友好度拉满。
一、创建 DataFrame
从本地文件创建:用spark.read.csv("file:///D:/Spark/data.csv", header=True, inferSchema=True)直接读取 CSV 文件,header=True表示第一行是列名,inferSchema=True能自动推断列的数据类型,不用手动定义,比 RDD 手动解析字段省太多事;
从集合创建:spark.createDataFrame([(1, "张三"), (2, "李四")], ["id", "name"]),适合快速测试小数据;
从 RDD 转换:把之前写的 RDD 通过toDF(["列名1", "列名2"])转成 DataFrame,能无缝衔接之前的代码。
二、核心操作:类 SQL 语法 + DSL 风格
这是今天最直观的收获 ——DataFrame 支持两种操作方式,不用再死记 RDD 的map/filter算子:
SQL 风格:先把 DataFrame 注册成临时视图df.createOrReplaceTempView("user"),然后直接写 SQL 查询spark.sql("select * from user where id > 1"),懂点 SQL 就能上手,完全不用写复杂的 RDD 逻辑;
DSL 风格:直接用 DataFrame 的方法链式调用,比如df.filter(df("id") > 1).select("name"),代码更简洁,不用写 SQL 字符串。
试了个简单案例:读取包含 “姓名、年龄、城市” 的 CSV 文件,统计每个城市的人数,用 DataFrame 几行代码就搞定,换成 RDD 得写map转键值对 +reduceByKey,对比下来 DataFrame 的代码可读性高太多。
三、收获
最大的感受是:DataFrame 把结构化数据处理的门槛降下来了,不用再关注底层 RDD 的分区、依赖这些细节,专注业务逻辑就行。

http://www.jsqmd.com/news/299256/

相关文章:

  • ,1月25号
  • 2026年电池连接器厂家推荐排行榜:刀片式/弹片式/纽扣式/DC电源插座/Type C/Wafer/XT30/XT60/XT90/新国标2+4,精选高效稳定连接方案
  • web3常见术语
  • 以太坊(世界计算机)
  • YOLO26改进 - 特征融合 | EFC增强层间特征相关性,通过多尺度特征交互减少冗余信息丢失即插即用
  • YOLO26改进 - 特征融合 | 融合Hyper-YOLO混合聚合网络MANet(Mixed Aggregation Network)通过多路径设计实现高效特征学习与模型适应性提升
  • 汉字阅读开挂了?汉英阅读速度实测对比,效率差出40%+!
  • 缓存三剑客困难
  • 2026年 印刷厂家推荐排行榜:化妆瓶、亚克力、咖啡杯、金属、PC满板、电子产品、汽车零件、遥控面板、医疗器材、罐体印刷,专业定制与高精度工艺之选
  • AI工程师必看!X-Distill技术详解:让机器人仅需10条数据就能学会复杂操作,建议收藏学习!
  • AI驱动的动态调度:从理论到实践,程序员必备的智能制造核心技能(建议收藏)
  • NeurIPS 2025多模态表征学习新突破:4篇论文详解
  • 亲测BSHM人像抠图镜像,效果惊艳真实体验分享
  • 大模型部署难题破解:并行计算架构详解与实战
  • 程序员学习大模型必看:腾讯云智商业产品面试经验,AI商业化思维与未来趋势深度解析(建议收藏)
  • LangChain、LangFlow、LangGraph:大模型应用开发框架全解析
  • 大模型微调学习路线:从0到1掌握AI落地核心技能,附四阶段详细规划
  • 2026年 环境老化试验箱厂家推荐排行榜,氙灯/紫外线/湿度/复合循环/盐水喷雾/臭氧/热老化试验箱专业品牌深度解析
  • 救命神器8个AI论文写作软件,自考学生搞定毕业论文不求人!
  • 2026年冷藏车箱厂家推荐排行榜:4米2/3米2/6米8/7米7/9米6冷链运输车箱,精选耐用保温与合规高效品牌
  • 2026年印刷设备厂家实力推荐榜:单色移印机/全自动平面丝印机/多色移印机/曲面丝印机/标准烫金机/化妆品瓶子印刷机,精选高效智能印刷解决方案
  • web3生态分层
  • 基于springboot+vue的农产品销售管理系统(源码+论文+部署+安装)
  • 2026年不锈钢工程厂家实力推荐榜:别墅、会所、酒店、商业空间等高端定制,匠心工艺与创新设计深度解析
  • Opencode CLI 配置 MiniMax M2 (Nvidia API) 指南
  • 2026 年 1 月割草船厂家推荐排行榜:无人/自动/遥控割草船,水域/河道/鱼塘/水下割草船,水草打捞/收割/清理船,高效清淤与生态维护利器精选
  • 实用指南:16000+字!Java集合笔记
  • 告别繁琐命令行:自研多线程 SSH 极速文件传输助手(附 GitHub 源码)
  • Educational Codeforces Round 79 部分题解
  • 钱包