当前位置: 首页 > news >正文

数据_数据截取

怎样截取数据

1.窗口分类
看作是一种对数据进行均匀切片的划分方式
看作是数据 遍历的一种方式
Windows窗口的方式
窗口大小(Windows size)+ 滑动步长(Windows slide )
窗口大小-- 窗口的开始(start)和结束(end)
窗口步长-- 窗口的统计频率
时间窗口和计数窗口
时间窗口--Event Time和Processing Time两种时间属性
基本的内容--滑动窗口
滑动-滚动-跳动
会话窗口 --会话超时失效的机制来描述窗口。当它在一个固定的时间周期内不再收到元素,即会话断开时,该窗口就会关闭
活动间隙
会话窗口只能基于时间来定义,间隔时间(Gap)来配置,这个间隔定义了非活跃周期的长度,
如果数据在指定的间隔(Gap)之后到达,则会开始一个新的窗口
会话超时时间的长度 size 即相邻两个数据到来的时间间隔(Gap)
Watermark 来进行关窗
2.窗口计算
01.计算方式--分组流(keyed streams)和无分组流(non-keyed streams)两种
按键分区窗口 (Keyed Window) 不分组窗口 (Non-Keyed Window)
边界填充(Padding) 步长(Stride)

实现和应用

滑动窗口计算,最容易想到的就是用两层for循环来实现
window_sequences = [data[i:i+window_size] for i in range(0, len(data)-window_size+1, slide_step)]
shape
叠被子-- 窗口大小--滑动步长()
算速度--窗口的方式--匀加速或者匀减速的假设条件
计算异常点

数据分组计算

任务并行 (Task Parallelism 指在多个不同任务上并行地执行。任务并行的核心思想是将整个任务划分成多个独立或相互依赖的子任务
数据并行 (Data Parallelism) 运行 同一批数据的 不同子集--数据被划分成多份,然后将每份数据分配到不同的计算节点上
数据分区(Data Partitioning)
范围分区(Range Partitioning) 哈希分区(Hash Partitioning) 列表分区(List Partitioning

传统数据库窗口函数

OVER窗口(OVER Window)是传统数据库的标准开窗,
Group By Window
01. 分组排名 (ROW_NUMBER() / RANK() / DENSE_RANK())
此操作用于在每个分组内对数据进行排序并编号(常用于求各组内的 Top N 数据
02. 组内聚合 (SUM() / AVG() / MAX() / MIN())
03.lag() 与 lead() 操作的数据都在 over() 的范围内,他里面可以使用 partition by 语句(用于分组) order by 语句(用于排序)。
partition by a order by b 表示以 a 字段进行分组,再 以 b 字段进行排序,对数据进行查询

存储

数据模型
structural encoding:
决定嵌套结构、null、offset、repetition/definition 等结构信息如何落盘

compressive encoding:
决定具体值如何压缩,比如 bit packing、FSST、dictionary、LZ4

示例
Parquet 会把嵌套结构 flatten 成 leaf columns。
每个 leaf column 包含 values、repetition levels、definition levels,并按 page 组织

http://www.jsqmd.com/news/930737/

相关文章:

  • 【独家首发】Sora 2教育视频质量评估矩阵(含5维评分体系+教育部《教育AI内容规范》对标表),限前200名教师免费申领
  • 如何用自动化脚本每天节省30分钟?淘宝任务智能管家深度解析
  • 翡翠回收为什么没人敢接?南京6月最新榜单,靠谱机构就这几家 - 奢侈品回收测评
  • Python之rlgraph包语法、参数和实际应用案例
  • 济南钻石回收 2026 渠道盘点,筛选靠谱商家实用技巧 - 薛定谔的梨花猫
  • FlipIt翻页时钟:让Windows桌面重获复古数字美学
  • 如何快速掌握AiZynthFinder:化学合成路径规划的终极指南
  • ExtractorSharp实战指南:高效游戏资源编辑的完整方案
  • 性价比高的老板演说培训 - GrowthUME
  • Sora 2虚拟场景搭建终极手册(含未公开API调用密钥与物理光照校准矩阵)
  • 20251912 2025-2026-2 《网络攻防实践》实践十一报告
  • STM32CubeMX配置FreeRTOS的隐藏细节:从点灯任务看堆栈分配、优先级与看门狗的那些坑
  • 江浙沪CNC培训机构怎么选:2024年普工转岗技术岗选校指南 - 资讯焦点
  • 告别杂乱音乐收藏,用插件化播放器打造沉浸式音乐空间
  • 航拍图像分割新思路:用MANet搞定多尺度目标识别(附论文精读与核心模块拆解)
  • 技术团队如何构建语音交互能力:从架构设计到实战落地
  • SQL Server 2019保姆级入门:从SSMS安装到第一个数据库的完整避坑指南
  • 2026济南名表回收实测:劳力士黑水鬼、欧米茄海马哪款更保值?五家平台报价公开 - 合扬奢侈品交易中心
  • 2026 Excel转PDF保姆级教程:免费在线转换网站与工具推荐 - 软件小管家
  • 告别实车测试!手把手教你用Vector VT6000搭建MCU HIL信号级测试台(附Simulink模型)
  • LightDB 23.4新特性:Oracle模式下的浮点数格式化兼容性详解(告别补零烦恼)
  • GetQzonehistory:如何用Python一键备份QQ空间全部历史记录?
  • Sora 2家具设计视频全链路拆解,从提示词工程→物理光照模拟→合规版权规避,一线团队内部手册首次公开
  • 老板演说培训机构那个好 - GrowthUME
  • 3步搞定:QQ群数据批量采集终极指南
  • GModPatchTool:破解Garry‘s Mod跨平台兼容性难题的Rust驱动解决方案
  • Segment-Anything模型下载与推理实战:除了安装,怎么用SAM给图片一键抠图?
  • 30天掌握Kaggle机器学习竞赛:数据分析实战终极指南
  • 2026上海月嫂机构怎么选?深度对比五大品牌,告别“面试内耗”与“调包焦虑” - 品牌评测官
  • 告别Chrome的第7天:Perplexity Comet浏览器实测,免费AI浏览器到底能不能打