当前位置：首页 > news >正文

Pandas 太慢？DuckDB 上手指南：用 SQL 在 Python 中极速查询亿级 CSV 数据

news 2026/7/3 1:07:54

🐢 前言：Pandas 的“阿喀琉斯之踵”

Pandas 是 Python 数据分析的神器，但它有两个致命弱点：

内存占用高：Pandas 通常需要 5-10 倍于文件大小的内存。处理 1GB 的数据可能需要 10GB 内存。
单线程执行：默认情况下，Pandas 只能利用一个 CPU 核心，无法榨干现代多核 CPU 的性能。

当数据量达到“亿级”时，我们需要换一种思路：列式存储 + 向量化执行。这就是 DuckDB 的强项。

🦆 一、什么是 DuckDB？为什么它这么快？

DuckDB 是一个进程内（In-Process）的 SQL OLAP 数据库。

进程内：像 SQLite 一样，无需安装服务器，pip install即可使用。
OLAP：专为分析（聚合、排序、连接）优化，采用列式存储。
向量化引擎：一次处理一批数据（Vector），而不是一行行处理，极大利用 CPU 缓存。

Pandas vs DuckDB 处理逻辑对比 (Mermaid):

🛠️ 二、环境准备

DuckDB 的安装极其简单，没有复杂的配置。

pipinstallduckdb pandas

💻 三、实战：挑战亿级 CSV 查询

假设我们有一个巨大的销售数据文件sales_data.csv(1 亿行，约 10GB)，包含字段：date,product_id,amount。

我们的任务是：计算每个月的销售总额。

1. Pandas 的做法 (反面教材)

如果你尝试直接读取，普通笔记本大概率会崩溃：

importpandasaspd# ⚠️ 警告：内存小于 32G 可能直接死机# df = pd.read_csv("sales_data.csv")# result = df.groupby('date')['amount'].sum()

2. DuckDB 的做法 (降维打击)

DuckDB 允许你直接对 CSV 文件写 SQL，它会自动进行流式处理，不会把整个文件读入内存。

importduckdbimporttime start_time=time.time()# 直接将 CSV 文件当作一张表来查询# read_csv_auto 会自动推断类型query=""" SELECT date, SUM(amount) as total_sales FROM read_csv_auto('sales_data.csv') GROUP BY date ORDER BY total_sales DESC """# execute() 执行查询，df() 将结果转换为 Pandas DataFrameresult_df=duckdb.sql(query).df()end_time=time.time()print(f"耗时:{end_time-start_time:.2f}秒")print(result_df.head())

实测结果对比（模拟数据）：

Pandas: 内存溢出（OOM）或耗时 300秒+。
DuckDB: 内存占用 < 1GB，耗时5-10秒。

🔗 四、进阶玩法：DuckDB 与 Pandas 的无缝融合

DuckDB 最强大的地方在于它不排斥 Pandas，而是与其共生。
你可以把 DuckDB 当作 Pandas 的**“外挂加速引擎”**。

场景：查询已有的 DataFrame

如果你已经有一个 DataFrame，但想用 SQL 做复杂的 Join 或 Window Function（窗口函数），DuckDB 可以直接查询 Python 变量！

importpandasaspdimportduckdb# 创建两个普通的 DataFrameusers=pd.DataFrame({'id':[1,2,3],'name':['Alice','Bob','Charlie']})orders=pd.DataFrame({'id':[101,102,103],'user_id':[1,1,2],'amount':[100,200,50]})# 使用 DuckDB 直接关联这两个 DataFrame# 注意：直接在 SQL 中写变量名 'users' 和 'orders'result=duckdb.sql(""" SELECT u.name, SUM(o.amount) as total_spent FROM users u JOIN orders o ON u.id = o.user_id GROUP BY u.name """).df()print(result)

为什么这很牛？
这也是 DuckDB 的黑科技——Zero-Copy (零拷贝)。它通过 Apache Arrow 协议直接读取 Pandas 的内存数据，而不需要复制一份，速度极快。

📂 五、终极建议：放弃 CSV，拥抱 Parquet

虽然 DuckDB 读 CSV 很快，但 CSV 本身是低效的（文本格式，体积大）。
如果你真的要处理大数据，请将数据转为Parquet格式。

DuckDB 处理 Parquet 简直是光速：

# 1. 把 CSV 转 Parquet (只需做一次)duckdb.sql("COPY (SELECT * FROM 'sales_data.csv') TO 'sales_data.parquet' (FORMAT 'PARQUET')")# 2. 查询 Parquet (比 CSV 再快 10 倍)duckdb.sql("SELECT SUM(amount) FROM 'sales_data.parquet'")