当前位置：首页 > news >正文

实战精讲：如何在Elasticsearch中进行数据的聚合分析

news 2026/8/3 7:07:58

实战精讲：如何在Elasticsearch中进行数据的聚合分析

- 一、聚合分析定义：什么是ES聚合分析？
- - 聚合分析核心流程图
- 二、聚合分析核心分类：两大基础类型
- - 聚合类型关系图
- 三、基础环境准备：测试数据
- - 3.1 创建索引
  - 3.2 插入测试数据
- 四、指标聚合（Metric）：数值计算（基础）
- - 4.1 定义：指标聚合
  - 4.2 常用语法
  - 实战：统计员工薪资相关指标
- 五、桶聚合（Bucket）：分组统计（最常用）
- - 5.1 定义：桶聚合
  - 5.2 常用分组方式
  - 实战1：按城市分组（terms）
  - 实战2：按年龄范围分组（range）
- 六、聚合嵌套：分组 + 计算（企业实战必备）
- - 定义：嵌套聚合
  - 聚合嵌套流程图
  - 实战：按部门分组，统计每组平均薪资
- 七、多级嵌套聚合：三层/四层分组（高级）
- - 实战：按城市 → 按部门 → 统计平均薪资
- 八、带查询条件的聚合：先筛选，再分析
- - 场景：只统计**北京**地区的员工数据
- 九、高级聚合：日期直方图（时间统计）
- - 场景：按天/周/月统计订单量、日志量
- 十、聚合分析常用语法总结表
- 十一、聚合分析最佳实践
- 十二、总结

🌺The Begin🌺点点关注，收藏不迷路🌺

一、聚合分析定义：什么是ES聚合分析？

Elasticsearch聚合分析：是ES除搜索外最核心的能力，指对检索到的数据进行分组、统计、计算、求和、平均值、最大值、最小值、百分位等分析操作，等价于MySQL中的GROUP BY+聚合函数，但性能远超传统数据库，千万级数据可秒级出统计结果。

简单理解：搜索是找数据，聚合是算数据。

聚合分析核心流程图

二、聚合分析核心分类：两大基础类型

ES聚合分为2大类，所有复杂聚合都由它们组合而成：

Bucket（桶聚合）：分组聚合
按照条件将数据分到不同“桶”中，等价于GROUP BY
例：按城市分组、按年龄分组、按日期分组
Metric（指标聚合）：计算聚合
对分组后的数据进行数值计算，输出统计结果
例：求和、平均值、最大值、数量统计

聚合类型关系图

渲染错误:Mermaid 渲染失败: Parse error on line 2: ...分析] --> B[Bucket 桶聚合(分组)] A --> C[Me -----------------------^ Expecting 'SQE', 'DOUBLECIRCLEEND', 'PE', '-)', 'STADIUMEND', 'SUBROUTINEEND', 'PIPE', 'CYLINDEREND', 'DIAMOND_STOP', 'TAGEND', 'TRAPEND', 'INVTRAPEND', 'UNICODE_TEXT', 'TEXT', 'TAGSTART', got 'PS'

三、基础环境准备：测试数据

3.1 创建索引

PUT/employee{"mappings":{"properties":{"name":{"type":"text"},"age":{"type":"integer"},"city":{"type":"keyword"},"salary":{"type":"double"},"department":{"type":"keyword"}}}}

3.2 插入测试数据

POST/employee/_bulk{"index":{"_id":1}}{"name":"张三","age":25,"city":"北京","salary":8000,"department":"技术部"}{"index":{"_id":2}}{"name":"李四","age":30,"city":"上海","salary":12000,"department":"技术部"}{"index":{"_id":3}}{"name":"王五","age":28,"city":"北京","salary":10000,"department":"产品部"}{"index":{"_id":4}}{"name":"赵六","age":35,"city":"深圳","salary":15000,"department":"产品部"}{"index":{"_id":5}}{"name":"钱七","age":26,"city":"上海","salary":9000,"department":"运营部"}

四、指标聚合（Metric）：数值计算（基础）

4.1 定义：指标聚合

对字段进行数值计算，不分组，直接输出统计结果。

4.2 常用语法

value_count：统计数量
sum：求和
avg：平均值
max：最大值
min：最小值

实战：统计员工薪资相关指标

GET/employee/_search{"size":0,// 不返回原始数据，只看聚合结果"aggs":{// 聚合固定关键字"salary_stats":{// 自定义聚合名称"stats":{// 多值统计（包含sum/avg/max/min/count）"field":"salary"}}}}

五、桶聚合（Bucket）：分组统计（最常用）

5.1 定义：桶聚合

按照字段值、范围、日期、关键词对数据分组。

5.2 常用分组方式

terms：按字段精确值分组（最常用）
range：按数值范围分组
date_range：按日期范围分组
histogram：直方图分组

实战1：按城市分组（terms）

GET/employee/_search{"size":0,"aggs":{"group_by_city":{// 自定义分组名"terms":{// 按值分组"field":"city",// 分组字段"size":10// 显示前10组}}}}

实战2：按年龄范围分组（range）

GET/employee/_search{"size":0,"aggs":{"group_by_age":{"range":{"field":"age","ranges":[{"to":25},// <25{"from":25,"to":30},// 25-30{"from":30}// >30]}}}}

六、聚合嵌套：分组 + 计算（企业实战必备）

定义：嵌套聚合

先分组（Bucket），再对每组数据计算指标（Metric），是工作中最常用的聚合方式。

聚合嵌套流程图

实战：按部门分组，统计每组平均薪资

GET/employee/_search{"size":0,"aggs":{"group_by_dept":{// 第一层：桶聚合（分组）"terms":{"field":"department"},"aggs":{// 第二层：指标聚合（计算）"avg_salary":{"avg":{"field":"salary"}}}}}}

七、多级嵌套聚合：三层/四层分组（高级）

实战：按城市 → 按部门 → 统计平均薪资

GET/employee/_search{"size":0,"aggs":{"group_by_city":{// 第一层：按城市"terms":{"field":"city"},"aggs":{"group_by_dept":{// 第二层：按部门"terms":{"field":"department"},"aggs":{"avg_salary":{// 第三层：算薪资"avg":{"field":"salary"}}}}}}}}

八、带查询条件的聚合：先筛选，再分析

场景：只统计北京地区的员工数据

GET/employee/_search{"query":{// 先查询过滤"term":{"city":"北京"}},"size":0,"aggs":{"group_by_dept":{"terms":{"field":"department"},"aggs":{"avg_salary":{"avg":{"field":"salary"}}}}}}

九、高级聚合：日期直方图（时间统计）

场景：按天/周/月统计订单量、日志量

GET/order/_search{"size":0,"aggs":{"sales_per_month":{"date_histogram":{"field":"create_time","calendar_interval":"month"// 按月分组}}}}

十、聚合分析常用语法总结表

聚合类型	关键字	作用	场景
指标聚合	sum	求和	薪资总和、销售额
指标聚合	avg	平均值	平均薪资、平均价格
指标聚合	max/min	最大/最小值	最高工资、最低价
桶聚合	terms	按值分组	按城市、部门、分类
桶聚合	range	按范围分组	年龄区间、价格区间
桶聚合	date_histogram	按时间分组	按月/日统计
组合	aggs嵌套	先分组后计算	企业级报表