当前位置: 首页 > news >正文

统计聚合函数:stddev/variance/spread/median/mode

统计聚合函数:stddev/variance/spread/median/mode

在基础聚合函数之外,SonnetDB 还提供了一组统计聚合函数,用于衡量数据的离散程度和分布特征。这些函数基于 Welford 在线算法实现,能够在单次数据扫描中高效计算出多个统计指标。

五种统计聚合函数

stddev(field):标准差。衡量数据点与平均值之间的离散程度。标准差越大,数据波动越剧烈。在监控场景中,标准差可以帮助判断系统的稳定性。

variance(field):方差。标准差的平方,同样是衡量数据离散程度的指标。方差越大,数据的波动范围越广。

spread(field):极差。max(field) - min(field),衡量数据的整体跨度。简单直观地反映数据的取值范围。

median(field):中位数。将数据排序后处于中间位置的值。相比平均值,中位数对异常值不敏感,能更好地反映数据的中心趋势,特别是在数据分布偏斜时。

mode(field):众数。数据中出现频率最高的值。适用于分类或离散型数据的分析,如确定最常见的状态值。

使用示例

SELECTstddev(usage)   AS std,       -- 标准差variance(usage) AS var,       -- 方差spread(usage)   AS spread,    -- 极差 (max-min)median(usage)   AS median,    -- 中位数mode(usage)     AS mode       -- 众数
FROM cpu
WHERE host = 'server-01';

Welford 在线算法

SonnetDB 的 stddevvariance 实现基于 Welford 在线算法。与传统算法需要两遍扫描(第一遍计算均值,第二遍计算方差)不同,Welford 算法只需要一次扫描即可完成计算,且数值稳定性更好。

该算法的核心思想是维护三个运行变量:计数 n、均值 M_n 和平方差之和 S_n。每处理一个新数据点 x:

  1. 更新计数:n = n + 1
  2. 更新均值:M_n = M_{n-1} + (x - M_{n-1}) / n
  3. 更新平方和:S_n = S_{n-1} + (x - M_{n-1}) * (x - M_n)

最终方差为 S_n / n(总体方差)或 S_n / (n-1)(样本方差),标准差为方差的平方根。

应用场景

系统稳定性评估:使用 stddev 判断系统负载的波动程度:

SELECTavg(usage)  AS avg_usage,stddev(usage) AS usage_stability
FROM cpu
WHERE host = 'server-01';

标准差越小,说明系统运行越稳定。如果标准差突然增大,可能预示着系统出现了异常波动。

数据分布分析:联合使用多个统计函数全面了解数据特征:

SELECTavg(usage)    AS mean,median(usage) AS median,stddev(usage) AS std,spread(usage) AS range,CASEWHEN abs(avg(usage) - median(usage)) > stddev(usage) / 2THEN '偏斜分布' ELSE '近似正态'END AS distribution
FROM cpu
WHERE host = 'server-01';

当平均值和中位数差异显著时,说明数据分布存在偏斜,此时中位数比平均值更能代表"典型值"。

这些统计聚合函数在性能监控、异常检测和质量分析等场景中发挥着重要作用,是时序数据分析工具箱中的重要组成部分。

http://www.jsqmd.com/news/803264/

相关文章:

  • 为AI智能体构建持久记忆系统:Claw Recall部署与MCP集成指南
  • 2026年耐高温不锈钢卷标杆名录:不锈钢板卷材、不锈钢板平板、冷轧不锈钢卷、拉丝不锈钢板、热轧不锈钢卷、耐高温不锈钢板选择指南 - 优质品牌商家
  • MySQL 数据库基础入门:从概念到实战
  • 揭秘千亿级QPS下的AI流式推理:2026奇点大会首曝“Lambda-δ”实时Pipeline设计范式
  • Mac Mouse Fix终极指南:如何让普通鼠标在Mac上获得超越触控板的体验
  • 2026年天然木蜡油制造商排行榜揭晓,谁能拔得头筹? - 速递信息
  • 汽车芯片市场深度解析:从电动化、智能化到供应链变革
  • 哪些做空气净化 - 中媒介
  • 工控仪表段码驱动低功耗高抗干扰液晶显示驱动芯片VKL060
  • 科研生产力革命:Obsidian科研模板一站式知识管理终极指南
  • 深入 T-Digest:分位数聚合与 percentile
  • 铆接工具哪个品牌好用? - 中媒介
  • 告别命令行!用SUMO的netedit图形化编辑器,5分钟搞定复杂路网建模
  • 基于MCP协议与HaE工具构建AI安全情报助手实战指南
  • 武汉SCMP供应链管理专家官方报考入口及权威认证机构选择指南 - 众智商学院课程中心
  • 国内矿粉粘结剂头部品牌排行:性能与服务双维度实测对比 - 奔跑123
  • 别再折腾源码编译了!Ubuntu 20.04下用apt-get一键安装Asterisk PBX(附SIP账号配置详解)
  • 公司展示型小程序怎么做?无需代码快速制作方法 - 码云数智
  • Python 3.12 Std_Libs - String - 03 - 去除空白与填充
  • 原来性价比高的蒸汽发生器还有这么多门道,你了解吗? - 企业推荐官【官方】
  • 2026年新疆票据印刷、不干胶标签一站式采购完全指南|源头直供绿色认证政企信赖 - 优质企业观察收录
  • 1.postgresql的数据类型
  • Element Plus Admin:5分钟快速搭建企业级后台管理系统的终极指南
  • 5大核心功能:让旧iOS设备重获新生的终极工具指南
  • 基于 TGLVM 算法的迁移学习分类系统
  • 初创公司如何借助Taotoken实现AI能力快速集成与成本可控
  • 2026年美度中国区售后服务网络全面升级:真实体验与避坑指南(最新电话及地址) - 亨得利官方服务中心
  • 广州SCMP供应链管理专家官方报考入口及权威认证机构选择指南 - 众智商学院课程中心
  • 长岛民宿推荐|3家实体实测对比,首选长岛仙品民宿 - 奔跑123
  • 新手别怕!STM32F103ZET6定时器从TIM1到TIM7,到底该用哪个?