当前位置: 首页 > news >正文

学习进度 22

今天先是把手动管理的 offset 从本地文件换成了简单的 Redis 存储,比存本地更贴合实际,代码里加了 Redis 的读写方法,消费完 Kafka 数据后把每个分区的 offset 存到 Redis,程序重启时先从 Redis 读 offset 再开始消费,避免了本地文件在分布式环境下的问题,过程中踩了 Redis 连接超时的坑,改了配置里的超时时间就好了。然后在流处理的流程里加了数据清洗步骤,对接收到的 Kafka 消息做了非空过滤、特殊字符剔除,还把时间字段做了格式转换,用 DStream 的 map 和 filter 算子就能实现,和批处理的清洗逻辑差不多,加了清洗后发现统计结果里的无效数据少了很多。另外还试了把流处理的最终统计结果输出到 Parquet 文件和控制台,用 saveAsTextFiles 指定输出路径,设置了按时间切分文件,方便后续查看,就是一开始没设置输出模式,导致重复输出报错,加了覆盖模式就解决了。
http://www.jsqmd.com/news/355751/

相关文章:

  • 20260131状压dp - Link
  • 如何给 OpenClaw 配置免费大模型
  • 编程技能的未来:人人皆可成为开发者
  • CANN ops-math:AI 硬件端高效数学运算的算子设计与工程化落地方法
  • CANN生态协同增效:cann-ensemble实现AIGC大模型集成部署与能力叠加
  • 2026年北京北京表手表维修推荐榜单:非官方维修网点售后服务中心评测 - 品牌推荐
  • 2026口碑好的宣传片制作公司推荐及选择参考 - 品牌排行榜
  • 2026有专业团队的宣传片制作公司推荐 - 品牌排行榜
  • 2026年北京宝玑手表维修推荐榜单:非官方维修网点服务评测与选择指南 - 品牌推荐
  • 2026做宣传片制作的公司哪家好?实力机构推荐 - 品牌排行榜
  • 提示工程架构师案例:某电商平台提示系统版本控制优化,用户体验提升30%
  • 2026上海广告位公司推荐:核心商圈户外媒体服务解析 - 品牌排行榜
  • 2026漆面膜品牌哪家好?行业热门选择推荐 - 品牌排行榜
  • 深入解析:深入理解 Spring Boot 中的数据库迁移:Flyway 与 Liquibase 实战指南
  • CANN生态数据赋能:cann-dataset打造AIGC大模型高效数据集管理工具
  • 上海地标广告位公司哪家专业?2026年实力机构推荐 - 品牌排行榜
  • 2026年北京搬家公司评测与推荐榜单:告别搬家烦恼的实用选择指南 - 品牌推荐
  • 2026年北京宝格丽手表维修推荐评测:非官方网点服务榜单与售后选择指南 - 品牌推荐
  • 2026能快速交付的宣传片制作公司推荐 - 品牌排行榜
  • 2026隐形车衣品牌推荐:行业热门品牌深度解析 - 品牌排行榜
  • 2026年漆面保护膜品牌公司排名及行业趋势解析 - 品牌排行榜
  • 2026上海户外广告位选择指南:高性价比服务商推荐 - 品牌排行榜
  • 2026靠谱的隐形车衣品牌推荐:这些品牌值得关注 - 品牌排行榜
  • CANN生态智能化升级:cann-auto-tune引领AIGC大模型自适配优化新趋势
  • 2026上海商场广告位出租公司有哪些?核心商圈资源盘点 - 品牌排行榜
  • 2026年北京艾米龙手表维修推荐评测:非官方维修网点服务榜单与避坑指南 - 品牌推荐
  • CANN生态场景化部署:cann-deployer实现AIGC大模型一键落地
  • 2026切纸机品牌哪家专业?行业技术与口碑深度测评 - 品牌排行榜
  • 客户端主机向Windows Server2012 R2发送Web Api请求时总是提示被“积极拒绝”的解决办法 - 尼古拉
  • 2026自动切纸机厂家哪家强?行业实力品牌推荐 - 品牌排行榜