当前位置：首页 > news >正文

Elasticsearch核心指南：全量数据类型详解与最优选型策略

news 2026/8/2 16:33:58

Elasticsearch核心指南：全量数据类型详解与最优选型策略

- 一、前言
- 二、Elasticsearch 核心数据类型分类
- - 1. 字符串类型（最常用）
  - 2. 数值类型
  - 3. 日期类型
  - 4. 布尔类型
  - 5. 复杂类型
  - 6. 特殊类型
- 三、ES 数据类型选型核心流程图
- 四、核心数据类型详解+使用场景
- - 1. 字符串类型（text / keyword）
  - 2. 数值类型（6种）
  - 3. 日期类型（date）
  - 4. 布尔类型（boolean）
  - 5. 对象类型（object / nested）
  - 6. 特殊高频类型
- 五、数据类型最优选择规则（序号化）
- - 1. 字符串字段选型规则
  - 2. 数字字段选型规则
  - 3. 时间字段选型规则
  - 4. 嵌套对象选型规则
  - 5. 特殊字段选型规则
- 六、企业级索引建模实战示例
- 七、高频踩坑避坑指南
- 八、总结

🌺The Begin🌺点点关注，收藏不迷路🌺

一、前言

在 Elasticsearch 索引建模过程中，数据类型的定义是最基础、最核心的环节，直接决定了索引的存储大小、查询性能、检索精度和功能可用性。

很多新手在建模时随意指定数据类型，最终导致数据存储冗余、聚合排序失效、查询超时、数据丢失等严重问题。本文将系统梳理 ES 支持的所有核心数据类型，结合选型流程图、实战场景、避坑指南，手把手教你为业务选择最合适的数据类型。

二、Elasticsearch 核心数据类型分类

ES 数据类型非常丰富，按照功能和用途可分为6大类，覆盖所有业务场景：

1. 字符串类型（最常用）

text：全文本类型，分词存储，支持全文检索
keyword：关键字类型，不分词，支持精确匹配/聚合/排序

2. 数值类型

integer：整型（-2³¹ ~ 2³¹-1）
long：长整型（超大整数）
float：单精度浮点型
double：双精度浮点型
short：短整型
byte：字节型
unsigned_long：无符号长整型

3. 日期类型

date：日期类型，支持字符串、毫秒值、秒值格式（如2025-01-01、2025-01-01 12:00:00）

4. 布尔类型

boolean：布尔值，仅支持true/false

5. 复杂类型

object：对象类型，存储嵌套 JSON 对象
nested：嵌套类型，解决对象数组关联查询问题
flattened：扁平化类型，将整个对象作为一个字段存储

6. 特殊类型

ip：IP 地址类型，支持 CIDR 格式查询
geo_point：地理坐标类型，存储经纬度，支持地理位置检索
range：范围类型，存储数值/日期/IP 范围
binary：二进制类型，存储 Base64 编码数据
version：版本号类型，支持语义化版本比较

三、ES 数据类型选型核心流程图

这是企业级开发通用选型流程图，遇到任何字段，直接按流程判断即可：

四、核心数据类型详解+使用场景

1. 字符串类型（text / keyword）

最容易混淆，必须严格区分

text
- 特性：自动分词，建立词条索引
- 支持：全文检索、模糊匹配
- 不支持：聚合、排序、精确匹配
- 场景：文章正文、商品描述、评论、标题全文搜索
keyword
- 特性：不分词，完整存储字符串
- 支持：精确查询、聚合、排序、去重
- 场景：手机号、订单号、状态码、标签、用户名、城市

2. 数值类型（6种）

遵循原则：能用小类型不用大类型，节省存储空间

byte：-128~127，如状态值（0/1）
short：-32768~32767，如年龄、数量
integer：常用默认整型，如用户ID、商品库存
long：超大数字，如订单ID、分布式ID
float：单精度小数，如简单评分
double：双精度小数，如金额、经纬度（高精度）

3. 日期类型（date）

特性：自动解析多种日期格式，内部以毫秒存储
支持：范围查询、按时间聚合、时区转换
场景：创建时间、更新时间、下单时间、日志时间
示例格式：2025-01-01、2025-01-01 10:00:00、1735689600000

4. 布尔类型（boolean）

特性：仅存 true/false，存储空间极小
场景：是否删除、是否上架、是否VIP、开关状态
优势：查询速度极快，过滤性能最高

5. 对象类型（object / nested）

object（普通对象）
- 场景：单层嵌套对象，如用户信息{"name":"张三","age":20}
- 限制：对象数组会丢失内部关联关系，无法精准查询
nested（嵌套类型）
- 场景：对象数组，如订单商品列表[{"name":"手机","price":3000},...]
- 优势：保留对象关联关系，支持精准嵌套查询

6. 特殊高频类型

ip：专门存储IPv4/IPv6，支持IP段过滤，场景：日志IP、访问IP
geo_point：存储经纬度（纬度,经度），场景：外卖地址、地图定位、附近的人
range：存储范围，场景：价格区间、时间区间、IP区间

五、数据类型最优选择规则（序号化）

1. 字符串字段选型规则

长文本 + 需要全文搜索 →text
短文本 + 精确匹配/聚合/排序 →keyword
既需要全文搜索又需要聚合 →text + keyword 多字段

2. 数字字段选型规则

优先选择最小可用类型，减少存储占用
状态/标识 → byte
年龄/库存/普通ID → integer
分布式ID/超大数值 → long
金额/高精度数据 → double

3. 时间字段选型规则

所有时间相关字段统一用 date
禁止用字符串/数字存储时间（无法使用时间相关函数）

4. 嵌套对象选型规则

单个对象 → object
对象数组 + 需要精准查询 → nested
无需查询的大JSON → flattened

5. 特殊字段选型规则

IP地址 → 必须用 ip 类型（不要用keyword）
经纬度 → 必须用 geo_point
布尔状态 → 必须用 boolean

六、企业级索引建模实战示例

{"mappings":{"properties":{// 商品标题：全文搜+聚合 → 多字段"title":{"type":"text","fields":{"keyword":{"type":"keyword","ignore_above":256}}},// 商品描述：仅全文搜 → text"desc":{"type":"text"},// 商品分类：精确匹配 → keyword"category":{"type":"keyword"},// 价格：小数 → double"price":{"type":"double"},// 库存：整数 → integer"stock":{"type":"integer"},// 状态：0/1 → byte"status":{"type":"byte"},// 创建时间 → date"create_time":{"type":"date"},// 是否上架 → boolean"is_on_sale":{"type":"boolean"},// 商家IP → ip"merchant_ip":{"type":"ip"},// 店铺位置：经纬度 → geo_point"location":{"type":"geo_point"},// 商品列表：对象数组 → nested"goods_list":{"type":"nested","properties":{"name":{"type":"text"},"price":{"type":"double"}}}}}}