当前位置：首页 > news >正文

DuckDB：从研究项目到广泛应用的数据库，为何如此之快？

news 2026/6/20 13:04:06

引言

从2019年阿姆斯特丹CWI的一个研究项目起步，DuckDB发展成为过去十年中应用最广泛的数据库之一。它应用场景众多，包括笔记本、ETL管道、仪表盘、CI测试运行器、SaaS产品内的嵌入式分析，甚至能在iPhone上以100的规模因子运行TPC - H。许多公司围绕它开发出了实际产品，如MotherDuck将其封装成云数据仓库，Hex、Omni和Evidence等将其用作应用内执行引擎和缓存，Fivetran在数据湖写入器中使用它进行合并和压缩，Rill基于它构建开源BI工具，Greybeam也用它处理数百万次查询。

什么是DuckDB？

DuckDB是一个进程内分析型SQL数据库。“分析型”意味着它针对扫描数百万行数据进行过滤、聚合和连接的查询进行了优化，而非通过主键查找单条记录的查询；“进程内”表示它没有服务器，可像加载NumPy或Polars一样，作为库加载到程序中。它以单个小于20 MB的二进制文件形式发布，无需外部依赖，可通过`pip install duckdb`、`brew install duckdb`安装，或在C++项目中链接`libduckdb`。它能直接打开包含Parquet、CSV或JSON文件的目录，将其视为SQL数据库。而且，DuckDB还是目前最快的单节点分析引擎之一，常能与花费数百万美元的集群相抗衡。

查询在进程内运行

将DuckDB指向笔记本电脑上一个6 GB的Parquet文件，不到一秒就能得到结果，无需集群、设置、迁移和`CREATE TABLE`。大多数分析型数据库是服务器，如Snowflake、Postgres、BigQuery和Redshift，需打开连接，通过TCP发送SQL语句，等待结果返回，此过程中结果集记录要序列化、反序列化，对于大型结果集，这项工作耗时可能比查询本身还长。DuckDB是库，无守护进程、端口和集群，只需加载`libduckdb`到程序中调用函数即可。2017年，Mark Raasveldt和Hannes Mühleisen研究发现，客户端协议是查询过程中最慢的一步，主要受带宽限制和每个值处理开销影响。DuckDB与客户端处于同一进程，避开了这两个瓶颈。当Python脚本针对Pandas数据框执行查询时，DuckDB可使用替换扫描功能，理想情况下能直接读取Python进程的底层缓冲区，实现零复制。以Arrow格式返回结果或查询基于Arrow的数据，可避免传统API带来的逐行转换开销。

从SQL到逻辑计划

解析

SQL语句进入DuckDB后，第一步是解析为抽象语法树（AST），DuckDB使用Postgres解析器的一个分支。AST是查询的树形表示，解析过程将扁平字符串转换为引擎能理解的结构化对象。树形结构便于引擎其他部分工作，绑定器、优化器和物理规划器都依赖它处理查询。

绑定

绑定阶段根据目录解析AST中的每个名称，进行类型检查，输出绑定树，暴露未解析列、模糊引用和类型不匹配等错误，将原始SQL文本转换为类型化的树。

优化器

DuckDB的优化器由一系列小型、专注的转换组成，可单独检查和禁用。如过滤下推，将`WHERE`谓词靠近扫描操作；子查询展开，将相关子查询重写为连接操作；动态连接 - 过滤下推，在哈希连接中利用构建侧数据计算边界，推回到探测侧扫描操作；连接顺序优化，使用动态规划算法选择最优连接顺序。整个优化阶段通常在约一毫秒内完成，之后得到逻辑计划。