当前位置: 首页 > news >正文

学习进度 18

Spark Streaming 的核心是DStream,也就是离散流,它把实时接收的数据流切分成一个个小的批次,每个批次的数据都封装成 RDD,后续的处理逻辑就和之前学的 RDD、DataFrame 操作基本一致,简单说就是 “微批处理”—— 把实时流拆成小批量,用批处理的方式做实时计算,这个设计对新手特别友好,不用重新学一套 API,之前的知识能直接复用。跟着教程搭了基础的开发环境,和 Spark 批处理的环境基本一致,不用额外配置,只是引入的依赖多了 Spark Streaming 的相关包。接着跑了经典的实时单词统计 demo,实现监听本地端口的实时文本数据,统计每个单词的出现次数,步骤特别简单:1. 创建 StreamingContext,设置批处理间隔(比如 5 秒,就是每 5 秒切分一个数据批次);2. 监听本地 9999 端口,获取实时数据流生成 DStream;3. 对 DStream 做操作,和 RDD 的 WordCount 逻辑几乎一样,扁平化分词、转键值对、按 key 聚合;4. 调用 print () 输出实时统计结果,最后启动流处理程序并等待终止。实操时按教程敲代码,启动程序后在 cmd 里用 nc 命令向 9999 端口发送文本,控制台就能实时输出每 5 秒的单词统计结果。还简单了解了 Spark Streaming 的核心输入源,除了本地端口,还能监听 HDFS、Kafka 等,其中 Kafka 是实际开发中最常用的,因为大部分业务的实时数据都会先发送到 Kafka 做缓存,再由 Spark Streaming 消费处理,不过今天没实操 Kafka 整合,只是记了这个核心搭配。另外知道了 DStream 的基本操作和 RDD 高度兼容,之前学的 map、flatMap、reduceByKey 等算子都能直接用,只是处理的对象变成了批次的 RDD 集合。
http://www.jsqmd.com/news/338689/

相关文章:

  • C++函数进阶:默认参数与函数重载,让你的代码更智能!
  • 生成函数的第一部分
  • 函数探幽(默认参数和函数重载)
  • No143:AI中国故事-对话张载——气本论与AI存在:太虚即气、民胞物与与天人合一
  • 【实操指南】ARP 欺骗攻击:从原理到实战,网络安全小白必看!
  • 霍尔电流传感器在新能源汽车中的应用探讨
  • 你天天用的汉语,竟是科技发展的 “神助攻”?
  • 数字人民币对第三方支付机构有何影响?
  • 漏洞复现-乱复一通 - 实践
  • 斑马专属PS系统课免费分享(视频+素材),让创造力破界而出
  • DINOv2工业缺陷异常检测算特征提取模型介绍
  • java 用队列实现栈
  • [大模型实战 03预备] 云端炼丹房 1:Google Colab 上手指南
  • 2026-02-03 GitHub 热点项目精选
  • 轻量级 Web 应用 —— 把一堆图片按指定频率直接拼成视频,零特效、零依赖、零命令行
  • 国产PLM软件的实施周期多久
  • 基于SpringBoot+Vue的Guru游戏攻略分享平台的设计与实现任务书
  • Java面试必看:如何高效列出所有文件?
  • 【计算机毕业设计案例】基于ssm的乡村特色农产品销售系统 农产品销售系统的设计与实现(程序+文档+讲解+定制)
  • Vue3 + TypeScript + el-input 处理金额输入(只能输入数字、负号和小数点,最多两位小数,不能0开头,不能小数点开头,只能开头输入负号,只能输入一次负号和小数点,不支持.01)
  • 2026 年学术研究 AI 写论文辅助软件权威排行榜
  • springboot基于Java Web的自助甜品商城网站系统(源码+文档+运行视频+讲解视频)
  • AI日报 - 2026年02月03日
  • springboot基于Java Web天气预报管理系统出行计划(源码+文档+运行视频+讲解视频)
  • 【毕业设计】基于ssm的农产品销售系统的设计与实现(源码+文档+远程调试,全bao定制等)
  • 用于结构振动响应压缩的频率增强矢量量化变分自编码器
  • 复现 CVE-2024-48990 并构建自己的漏洞利用程序
  • springboot基于java web的在线图书借阅管理系统(源码+文档+运行视频+讲解视频)
  • Excel WEEKDAY函数全解析:从星期判断到智能工资计算,掌握日期背后的周期密码
  • 核素海洋扩散计算模型的构建与验证方法体系的完善研究