当前位置: 首页 > news >正文

Flink 翻滚窗口、滑动窗口、会话窗口核心区别

        Flink 中的翻滚窗口(Tumbling Window)滑动窗口(Sliding Window)会话窗口(Session Window)是处理流数据的三大核心窗口类型,用于将无限的流数据切割为有限的 “数据块” 进行批量计算。三者的核心差异体现在窗口划分方式、数据重叠性、触发机制上,适用于不同的业务场景。以下是详细的对比与解析。

一、核心定义与窗口划分逻辑

1. 翻滚窗口(Tumbling Window):固定大小、无重叠、连续划分

        翻滚窗口是大小固定、无重叠、连续划分的窗口,数据会被严格分配到一个且仅一个窗口中,窗口之间无缝衔接。

  • 划分规则:以固定的时间 / 数据量间隔划分窗口,例如:
    • 时间翻滚窗口:每 5 分钟一个窗口(00:00-00:05、00:05-00:10、00:10-00:15……);
    • 计数翻滚窗口:每 100 条数据一个窗口(1-100 条、101-200 条、201-300 条……)。
  • 核心特点:窗口之间完全独立,无数据重叠,计算结果是 “阶段性的完整统计”。
  • 形象比喻:像切面包一样,将流数据切成一段段等长的面包片,每片之间没有重叠。

2. 滑动窗口(Sliding Window):固定大小、有重叠、滑动步长控制

        滑动窗口是大小固定、可重叠的窗口,窗口的划分由 ** 窗口大小(Window Size)滑动步长(Slide Step)** 两个参数控制。

  • 划分规则
    • 窗口大小:窗口的时间 / 数据量长度(如 5 分钟);
    • 滑动步长:窗口每次滑动的时间 / 数据量间隔(如 2 分钟)。例如:
    • 时间滑动窗口:窗口大小 5 分钟,滑动步长 2 分钟(00:00-00:05、00:02-00:07、00:04-00:09……);
    • 计数滑动窗口:窗口大小 100 条,滑动步长 50 条(1-100 条、51-150 条、101-200 条……)。
  • 核心特点:数据可能被分配到多个窗口中(重叠部分的数据会被多次计算),计算结果是 “高频的增量统计”。
  • 关键参数关系
    • 当滑动步长 = 窗口大小时,滑动窗口退化为翻滚窗口;
    • 当滑动步长 < 窗口大小时,窗口存在重叠(最常见场景);
    • 当滑动步长 > 窗口大小时,窗口之间会出现间隙(数据可能被遗漏,极少使用)。

3. 会话窗口(Session Window):无固定大小、基于超时、非连续划分

        会话窗口是 ** 无固定大小、基于会话超时(Session Gap)** 划分的窗口,用于处理间歇性的数据流,窗口的开始和结束由数据的到达时间决定。

  • 划分规则
    • 当有数据到达时,若当前
http://www.jsqmd.com/news/106369/

相关文章:

  • FreeBuds Pro5续航短?关闭这些设置试试!
  • C#中的静态成员、常量和只读变量
  • centos7 磁盘I/O性能
  • 软硬协同:揭秘机器狗复杂地形适应背后的边缘智能中枢
  • 架构设计:ElasticSearch+HBase 海量存储架构设计与实现
  • Simulink仿真模型中同步电机的死区补偿与自适应补偿实践
  • 水面上划过的涟漪遇到礁石会拐弯,声波撞上超表面也得乖乖听话。今天咱们来折腾COMSOL里水声超表面的反射特性计算,这玩意儿在声学隐身和定向传声领域正热乎着呢
  • CPT、SFT、DPO分别是什么
  • Flink Join 核心解析:类型、原理、实操
  • 一种“看起来很稳”,却暗藏坑点的恒流 PWM 驱动电路
  • 机械手弧焊节气设备
  • Linux 内存管理:TLB ASID
  • 【计算机毕设】基于深度学习的人体摔倒识别方法与实现
  • 42、Linux编程:软件开发工具探索与实践
  • 告别 LLM 输出的不确定性:深度解析 TypeChat 如何重塑 AI 工程化开发
  • 机器人操作空间速度计算python几种实现函数
  • 透过格子玻尔兹曼LBM实现三相驱替:油、水、二氧化碳三组分动态模拟与研究
  • 通用 AI · Universal AI 2
  • 微信朋友圈集赞神器靠谱吗?微信点赞群5000人微信投票是真的吗? - 速递信息
  • 格子玻尔兹曼方法(LBM)的MRT作用力模型
  • 为何选择具备制造业基因的厂商,是ERP与OA系统集成成功的关键
  • 43、Linux 编程:GNU 许可证与入门级 Shell 脚本编写
  • LLC谐振变换器的控制策略多种多样,今天咱们就来聊聊几种常见的闭环仿真方法,顺便用Matlab/Simulink来搞点代码,看看这些控制策略在实际中是怎么玩的
  • 多孩家庭首选 30-40 万新能源7座车型推荐 - 速递信息
  • API赋能:消金电销无缝联的革新实践
  • scheme中的序列操作
  • 力扣 “两数之和” 最优解:哈希表 O (n) 时间复杂度实现详解
  • 30-40 万新能源汽车 兼顾续航与智能的热门之选 - 速递信息
  • Skipping xxx as repository xxxx doesn‘t support architecture ‘i386‘
  • 基于WEB的高校计算机数据库课程知识图谱系统的设计与实现