当前位置：首页 > news >正文

【Elasticsearch从入门到精通】第39篇：Elasticsearch SQL接口——用熟悉的SQL语法查询ES

news 2026/7/24 23:40:38

上一篇【第38篇】Elasticsearch索引映射深度解析——数据类型与映射属性https://blog.csdn.net/xyghehehehe/article/details/161401648
下一篇【第40篇】Elasticsearch SQL语法详解——从DDL到复杂查询

摘要

Elasticsearch SQL是X-Pack提供的一个强大而轻量的SQL接口，允许用户使用熟悉的SQL语法直接查询Elasticsearch中的数据，无需学习复杂的Query DSL。本文将从ES SQL的背景与适用场景出发，详细介绍SQL REST API的使用方法，包括JSON、CSV、TSV、TXT、YAML等多种返回格式的切换，以及query、fetch_size、filter、time_zone等请求参数的配置。同时，还将讲解基于Cursor的高效分页机制、SQL Translate API的调试功能，并通过对比表格清晰展示ES SQL与标准SQL之间的差异，帮助开发者快速上手ES SQL并理解其边界。

一、Elasticsearch SQL概述

1.1 背景与动机

Elasticsearch以其强大的全文搜索和分布式分析能力著称，但其Query DSL语法对于习惯SQL的开发者来说存在一定的学习门槛。ES SQL的出现解决了这一问题：

降低学习成本：无需学习ES特有的Query DSL，使用标准SQL语法即可查询
快速探索数据：对于数据分析师和DBA，SQL是更自然的查询语言
兼容现有工具链：支持JDBC/ODBC驱动，可以与Tableau、Power BI等BI工具集成
透明转换：ES SQL在底层将SQL语句转换为Elasticsearch Query DSL执行

1.2 ES SQL的特点

Elasticsearch SQL是原生构建在Elasticsearch之上的X-Pack组件，具有以下特点：

本地集成：直接运行在Elasticsearch集群上，每个查询都有效地针对相关节点执行
无需外部组件：不需要额外的硬件、进程或运行时库
轻量高效：不抽象Elasticsearch的搜索功能，而是暴露SQL接口以支持全文搜索

1.3 适用场景

场景	适合使用ES SQL	原因
数据探索与验证	是	SQL语法直观，快速查看数据
报表与BI集成	是	JDBC驱动支持主流BI工具
简单的过滤查询	是	WHERE子句语义清晰
复杂全文搜索	否	不支持match、multi_match等ES特有查询
聚合分析	部分	支持基础聚合，不支持复杂嵌套聚合
学习Query DSL	是	Translate API可查看SQL对应的DSL

二、SQL REST API

2.1 基本用法

SQL REST API接受JSON格式的SQL语句并返回查询结果：

POST_sql?format=json{"query":"SELECT name, author, page_count FROM library WHERE page_count > 500"}

响应示例：

{"columns":[{"name":"name","type":"text"},{"name":"author","type":"text"},{"name":"page_count","type":"long"}],"rows":[["Dune","Frank Herbert",604],["Leviathan Wakes","James S.A. Corey",561]],"status":200}

注意：使用ES SQL前需要确保索引中已有数据。以下是用于测试的示例数据：

PUTlibrary/_bulk?refresh{"index":{"_id":"Leviathan Wakes"}}{"name":"Leviathan Wakes","author":"James S.A.Corey","release_date":"2011-06-02","page_count":561}{"index":{"_id":"Hyperion"}}{"name":"Hyperion","author":"Dan Simmons","release_date":"1989-05-26","page_count":482}{"index":{"_id":"Dune"}}{"name":"Dune","author":"Frank Herbert","release_date":"1965-06-01","page_count":604}

2.2 返回数据格式

Elasticsearch SQL支持多种返回格式，通过format参数或AcceptHTTP头指定：

格式	format参数值	说明
JSON	`json`	结构化JSON（默认）
CSV	`csv`	逗号分隔值
TSV	`tsv`	制表符分隔值
TXT	`txt`	文本表格（人类友好）
YAML	`yaml`	YAML格式
Smile	`smile`	二进制JSON压缩格式
CBOR	`cbor`	二进制JSON格式

CSV格式

POST _sql?format=csv{"query":"SELECT * FROM library"}

返回结果：

name,author,release_date,page_count Leviathan Wakes,James S.A.Corey,2011-06-02T00:00:00.000Z,561 Hyperion,Dan Simmons,1989-05-26T00:00:00.000Z,482 Dune,Frank Herbert,1965-06-01T00:00:00.000Z,604

TXT格式（人类友好）

POST _sql?format=txt{"query":"SELECT name, author, page_count FROM library"}

返回结果：

name |author |page_count ----------------|-------------------|------------ Dune |Frank Herbert |604 Hyperion |Dan Simmons |482 Leviathan Wakes |James S.A. Corey |561

YAML格式

POST _sql?format=yaml{"query":"SELECT name, page_count FROM library ORDER BY page_count DESC LIMIT 1"}

返回结果：

columns:-name:nametype:text-name:page_counttype:longrows:--Dune-604status:200

URL参数优先级：formatURL参数优先于AcceptHTTP头。如果两者都未指定，则返回与请求相同格式的响应。

2.3 请求参数详解

ES SQL REST API支持以下请求参数：

参数	类型	说明	示例
`query`	String	SQL查询语句	`"SELECT * FROM emp"`
`fetch_size`	Integer	每次获取的行数（Cursor分页用）	`1000`
`filter`	Object	使用ES Query DSL进行额外过滤	`{ "term": { "status": "active" } }`
`time_zone`	String	时区设置	`"Asia/Shanghai"`
`cursor`	String	分页游标（由前次查询返回）	`"dGVzdA=="`
`request_timeout`	Time	请求超时时间	`"1m"`
`page_timeout`	Time	单页超时时间	`"10s"`
`params`	Object	参数化查询的参数值	`{ "status": "active" }`

使用filter参数过滤

filter参数允许在SQL查询之外添加标准的Elasticsearch Query DSL过滤条件，实现更灵活的数据筛选：

POST_sql?format=json{"query":"SELECT name, page_count FROM library","filter":{"range":{"page_count":{"gte":500}}}}

使用time_zone参数

POST_sql?format=json{"query":"SELECT name, release_date FROM library","time_zone":"Asia/Shanghai"}

使用params参数化查询

POST_sql?format=json{"query":"SELECT * FROM library WHERE page_count > ? AND author = ?","params":[500,"Frank Herbert"]}

注意：大多数参数（超时除外）仅在初始查询时有意义。后续分页请求只需要cursor参数，其他参数会被忽略。

三、SQL Cursor分页机制

3.1 为什么需要Cursor

对于大量数据的结果集，一次性返回所有结果可能导致内存溢出。ES SQL提供了基于Cursor的分页机制，通过fetch_size控制每次返回的行数。

3.2 基本分页流程

步骤1：发起初始查询，指定fetch_size

POST_sql?format=json{"query":"SELECT * FROM library","fetch_size":2}

响应：

{"columns":[...],"rows":[["Dune","Frank Herbert","1965-06-01T00:00:00.000Z",604],["Hyperion","Dan Simmons","1989-05-26T00:00:00.000Z",482]],"cursor":"dXNlcm5hbWU6YWRtaW4="}

步骤2：使用cursor获取下一页

POST_sql?format=json{"cursor":"dXNlcm5hbWU6YWRtaW4="}

响应：

{"columns":[...],"rows":[["Leviathan Wakes","James S.A. Corey","2011-06-02T00:00:00.000Z",561]],"cursor":null}

当cursor为null时，表示已获取所有数据。

3.3 清除Cursor

使用完Cursor后应该及时清除，释放服务端资源：

POST_sql/close{"cursor":"dXNlcm5hbWU6YWRtaW4="}

响应：

{"succeeded":true,"cursor":"dXNlcm5hbWU6YWRtaW4="}

最佳实践：Cursor有默认的存活时间（通常5分钟），过期后自动清理。但在应用代码中，建议在分页完成后主动调用close API释放资源，特别是在循环分页场景中，应处理异常时也确保清理。

3.4 SQL与传统分页对比

特性	SQL LIMIT/OFFSET	SQL Cursor
性能	随OFFSET增大而下降	恒定，与页码无关
一致性	数据变更可能导致重复/遗漏	基于快照，一致性更好
随机跳页	支持	不支持，只能顺序翻页
内存消耗	高（大OFFSET需扫描跳过）	低
适用场景	少量数据、需要跳页	大数据量、顺序浏览

四、SQL Translate API

4.1 功能介绍

SQL Translate API将SQL语句翻译为Elasticsearch Query DSL，但不会真正执行查询。它的主要用途包括：

学习Query DSL：通过查看SQL对应的DSL，逐步理解ES查询语法
调试SQL：验证SQL语句是否按预期翻译
性能优化：分析生成的DSL，优化查询效率

4.2 使用方法

POST_sql/translate{"query":"SELECT name, page_count FROM library WHERE page_count > 500 ORDER BY page_count DESC LIMIT 10"}

响应（翻译后的Query DSL）：

{"size":10,"_source":{"includes":["name","page_count"]},"docvalue_fields":[{"field":"page_count","format":"use_field_mapping"}],"query":{"range":{"page_count":{"gt":500,"boost":1.0}}},"sort":[{"page_count":{"order":"desc","missing":"_last","unmapped_type":"long"}}]}

4.3 更复杂的翻译示例

带GROUP BY和聚合的SQL：

POST_sql/translate{"query":"SELECT author, AVG(page_count) AS avg_pages, COUNT(*) AS book_count FROM library GROUP BY author"}

翻译结果：

{"size":0,"_source":false,"aggregations":{"groupby":{"composite":{"sources":[{"author":{"terms":{"field":"author.keyword"}}}]},"aggregations":{"avg_pages":{"avg":{"field":"page_count"}},"book_count":{"value_count":{"field":"_index"}}}}}}

通过Translate API，开发者可以直观地看到SQL语句在底层如何被转换为ES的查询结构，这对于理解ES的工作原理和优化查询性能非常有帮助。

4.4 Translate API的适用场景

场景	说明
学习DSL	查看SQL到DSL的映射关系
性能调优	检查生成的DSL是否合理
迁移过渡	从SQL逐步过渡到原生DSL
调试查询	排查SQL查询是否按预期翻译

五、ES SQL与标准SQL的差异

5.1 核心差异对比

特性	标准SQL	ES SQL
数据模型	二维表（行和列）	索引（JSON文档）
表 → ES	Table	Index / Index Pattern
列 → ES	Column	Field
行 → ES	Row	Document
Schema	固定Schema	动态Schema（可配置）
数据类型	基本类型	包含geo_point、nested等ES特有类型
全文搜索	LIKE（模糊匹配）	MATCH（分词搜索）
索引	B-Tree	倒排索引
JOIN支持	完整支持	不支持
子查询	完整支持	不支持
事务	ACID事务	不支持
INSERT/UPDATE/DELETE	完整DML	不支持
存储过程	支持	不支持
视图	支持	不支持

5.2 概念映射关系

SQL概念	Elasticsearch概念	说明
Database	Cluster	数据库对应集群
Table	Index	表对应索引
Row	Document	行对应文档
Column	Field	列对应字段
Schema	Mapping	表结构对应映射
Index（索引）	Inverted Index	SQL的索引对应ES的倒排索引

5.3 不支持的SQL特性

ES SQL是一个精简的SQL实现，以下标准SQL特性不被支持：

JOIN：不支持表连接操作（包括INNER/LEFT/RIGHT/CROSS JOIN）
子查询：不支持嵌套SELECT语句
INSERT/UPDATE/DELETE：不支持数据修改操作
事务：不支持BEGIN/COMMIT/ROLLBACK
UNION：不支持结果集合并
视图：不支持CREATE VIEW
存储过程：不支持PROCEDURE/FUNCTION
TRIGGER：不支持触发器
HAVING中的子查询：不支持关联子查询

六、总结与最佳实践

核心要点

ES SQL是入门利器：对于不熟悉Query DSL的用户，SQL接口提供了快速上手的方式
Translate API是学习工具：通过查看SQL翻译后的DSL，可以逐步掌握ES查询语法
Cursor分页更高效：处理大数据量时，使用Cursor分页而非LIMIT/OFFSET
注意SQL的限制：ES SQL不支持JOIN、子查询等复杂操作，复杂场景仍需使用Query DSL

最佳实践清单

使用format=json进行程序集成，format=txt进行人工查看
大数据量查询使用Cursor分页，设置合理的fetch_size（建议500-1000）
使用filter参数结合Query DSL实现SQL无法表达的复杂过滤
使用Translate API验证复杂SQL语句的翻译结果
在BI工具集成场景中，优先使用JDBC驱动而非REST API
及时清理不再使用的Cursor，避免服务端资源泄漏
对于性能敏感的场景，最终应迁移到原生Query DSL

上一篇【第38篇】Elasticsearch索引映射深度解析——数据类型与映射属性https://blog.csdn.net/xyghehehehe/article/details/161401648
下一篇【第40篇】Elasticsearch SQL语法详解——从DDL到复杂查询

查看全文

http://www.jsqmd.com/news/886763/