当前位置: 首页 > news >正文

学习进度 19

继续搞 Spark Streaming,今天主要学了状态管理和整合 Kafka,都是在昨天基础上改,没学太复杂的底层。昨天的实时 WordCount 只能统计每个批次,没法累加,今天用 updateStateByKey 解决了这个问题,它能把当前批次数据和历史状态结合起来做累计,不过必须先设置 Checkpoint 目录来持久化状态,不然会报错,实操时分批次输入单词,终于看到了 hello、world 的计数能一直累加,不再是每个批次独立的结果了。然后把数据源从本地 nc 端口换成了实际开发常用的 Kafka,用 Receiver 模式入门,先本地启动了 ZooKeeper 和 Kafka,创建了 spark_topic 主题,再在代码里配置好 Kafka 参数和消费者组,通过 KafkaUtils.createStream 获取 DStream,取消息的 value 后做 WordCount,启动程序后在 Kafka 生产者控制台发消息,Spark 就能实时统计了,和之前端口监听的逻辑差不多,就是换了个输入源。过程中踩了两个坑,一个是忘了开 Checkpoint 直接报错,另一个是 Kafka 和 Spark 的依赖版本不匹配,换了对应版本才跑通,还知道了 Receiver 模式不是官方推荐的,Direct 模式更高效,另外还有窗口函数能实现滑动窗口统计,比如每 10 秒统计过去 30 秒的数据,这些都留到明天再学,今天先把状态累计和 Kafka 基础整合跑通就够了。
http://www.jsqmd.com/news/342732/

相关文章:

  • 【回眸】设置OKTA Email证书过期问题改进
  • 老年人能力评估系统开发Day11
  • 【回眸】Polyspace教程(一) 小白使用篇
  • Kmesh-daemon 深度解析:服务网格数据面的核心引擎
  • 机器学习 - 轮次(Epoch)
  • C#动态代码最近实践
  • Boss项目:部门新增+部门编辑+部门删除+登录拦截(鉴权)
  • 2026 主流 AI 论文生成工具排行榜(按综合推荐指数)
  • 2026年纯碱厂家最新推荐:阻垢剂纯碱厂家/食品级厂家/60-160目工业级纯碱/印染助剂纯碱厂家/工业级氨水厂家/选择指南 - 优质品牌商家
  • 物种分布曲线的五个矩
  • datagrip升级后破解密码--以后也用不到
  • 数据立方体在智慧城市建设中的关键作用
  • 【RAG技术】- RAG系统调优手段之知识库处理(纯干货,建议收藏!!!)
  • 【PMP】风险管理
  • 【PMP】项目生命周期与组织变革
  • PostgreSQL 16 容器主从流复制
  • 前缀和算法:从一道 LeetCode 题看区间求和优化思想
  • Elasticsearch:使用 Elastic Workflows 构建自动化
  • PPP与PPPoE协议介绍
  • Jina Rerankers 为 Elastic 推理服务(EIS)带来了快速、多语言的重排序能力
  • 低功耗蓝牙怎样音频协商音频能力?PACS(Published Audio Capabilities Service)来助力!!
  • 五种并行处理策略对比调研
  • ceph平台-未及时移除故障osd导致根目录100%问题的故障记录
  • 2026年白酒厂家权威推荐榜:白酒贴牌定制厂家、纯粮白酒厂家推荐、纯粮食白酒厂家、贴牌白酒生产厂家、酱香白酒厂家批发选择指南 - 优质品牌商家
  • 缓存特工队:深入浏览器内部的秘密仓库
  • JAVA安全基础-CC3链
  • 基于Spring Boot的企业网盘的设计与实现(开题报告)
  • AI漫剧怎么赚钱:教你用AI漫剧创作系统制作自己的动漫短剧使用云微AI短剧创作系统
  • 【Azure 环境】获取Azure上资源的创建时间createdTime信息(ARM REST API版本)
  • MySQL 导入资料详细说明