当前位置：首页 > news >正文

DolphinDB数据压缩与存储优化

news 2026/7/7 20:16:19

- 摘要
- 一、数据压缩概述
- - 1.1 为什么需要数据压缩
  - 1.2 DolphinDB压缩特点
  - 1.3 压缩算法对比
- 二、压缩配置
- - 2.1 数据库级压缩
  - 2.2 列级压缩
  - 2.3 压缩算法选择
- 三、压缩效果测试
- - 3.1 测试数据准备
  - 3.2 压缩效果对比
  - 3.3 查看压缩效果
- 四、存储优化策略
- - 4.1 数据类型优化
  - 4.2 分区优化
  - 4.3 排序列优化
- 五、冷热数据分离
- - 5.1 分层存储
  - 5.2 数据迁移
  - 5.3 降采样存储
- 六、存储监控
- - 6.1 存储空间监控
  - 6.2 压缩率监控
- 七、最佳实践
- - 7.1 压缩策略
  - 7.2 存储优化清单
- 八、总结
- 参考资料

摘要

本文深入讲解DolphinDB数据压缩与存储优化技术。从压缩算法原理到配置方法，从存储策略设计到空间优化，从性能测试到最佳实践，全面介绍如何降低存储成本、提升查询性能。通过丰富的代码示例，帮助读者掌握数据压缩和存储优化的核心技能。

一、数据压缩概述

1.1 为什么需要数据压缩

工业物联网数据量巨大，存储成本高昂：

1.2 DolphinDB压缩特点

特点	说明
列式压缩	按列存储，压缩率高
时序压缩	针对时序数据优化
自动压缩	自动选择压缩算法
透明解压	查询时自动解压

1.3 压缩算法对比

算法	压缩比	压缩速度	解压速度	适用场景
LZ4	中	快	快	通用场景
ZSTD	高	中	中	高压缩比
DELTA	高	快	快	渐变数据
BITMAP	高	快	快	低基数列

二、压缩配置

2.1 数据库级压缩

//创建数据库时指定压缩 db=database("dfs://compressed_db",VALUE,1..100)//创建表时指定压缩 schema=table(1:0,`device_id`timestamp`temperature`humidity,[INT,TIMESTAMP,DOUBLE,DOUBLE])db.createPartitionedTable(schema,`sensor_data,`device_id,,//sortColumns true,//enableCompression"ZSTD"//compressionAlgorithm)

2.2 列级压缩

//不同列使用不同压缩算法 schema=table(1:0,`device_id`timestamp`temperature`humidity`status,[INT,TIMESTAMP,DOUBLE,DOUBLE,SYMBOL])//创建表时配置列压缩 db.createPartitionedTable(schema,`sensor_data,`device_id,,true,["LZ4","DELTA","ZSTD","ZSTD","BITMAP"]//各列压缩算法)

2.3 压缩算法选择

//根据数据特点选择压缩算法//整数列：DELTA（渐变数据）//device_id:DELTA（连续整数）//时间列：DELTA（时间递增）//timestamp:DELTA//浮点数列：ZSTD（随机数据）//temperature:ZSTD//符号列：BITMAP（低基数）//status:BITMAP

三、压缩效果测试

3.1 测试数据准备

//创建测试数据defgenerateTestData(rows){returntable(take(1..100,rows)asdevice_id,2024.01.01T00:00:00+0..(rows-1)*1000astimestamp,rand(20.0..30.0,rows)astemperature,rand(40.0..60.0,rows)ashumidity,take(`online`offline`error,rows)asstatus)}data=generateTestData(10000000)//1000万行

3.2 压缩效果对比

//测试不同压缩算法//1.无压缩 db1=database("dfs://no_compress",VALUE,1..100)db1.createPartitionedTable(schema,`data1,`device_id,,false)loadTable("dfs://no_compress","data1").append!(data)//2.LZ4压缩 db2=database("dfs://lz4_compress",VALUE,1..100)db2.createPartitionedTable(schema,`data2,`device_id,,true,"LZ4")loadTable("dfs://lz4_compress","data2").append!(data)//3.ZSTD压缩 db3=database("dfs://zstd_compress",VALUE,1..100)db3.createPartitionedTable(schema,`data3,`device_id,,true,"ZSTD")loadTable("dfs://zstd_compress","data3").append!(data)//4.列级压缩 db4=database("dfs://col_compress",VALUE,1..100)db4.createPartitionedTable(schema,`data4,`device_id,,true,["DELTA","DELTA","ZSTD","ZSTD","BITMAP"])loadTable("dfs://col_compress","data4").append!(data)

3.3 查看压缩效果

//查看各表存储大小defgetTableSize(dbPath,tableName){meta=getTabletsMeta(dbPath,tableName)returnsum(meta.size)}sizes=table(["无压缩","LZ4","ZSTD","列级压缩"]asname,[getTableSize("dfs://no_compress","data1"),getTableSize("dfs://lz4_compress","data2"),getTableSize("dfs://zstd_compress","data3"),getTableSize("dfs://col_compress","data4")]assize_bytes)//计算压缩比 select name,size_bytes,size_bytes/sizes[0].size_bytesascompression_ratiofromsizes

四、存储优化策略

4.1 数据类型优化

//选择合适的数据类型//不推荐 t1=table(1..100asid,"device_"+string(1..100)asname,//STRING25.5astemperature//DOUBLE)//推荐 t2=table(1..100asid,symbol("device_"+string(1..100))asname,//SYMBOL（更省空间）25.5fastemperature//FLOAT（精度够用）)//数据类型大小对比//INT:4字节//LONG:8字节//FLOAT:4字节//DOUBLE:8字节//SYMBOL:4字节（引用）//STRING:变长

4.2 分区优化

//合理的分区大小//不推荐：分区过小 db1=database("dfs://small_partition",VALUE,1..10000)//10000个分区//不推荐：分区过大 db2=database("dfs://large_partition",RANGE,[2024.01.01,2025.01.01])//1个分区//推荐：分区大小1-10GB db3=database("dfs://optimal_partition",COMPO,[RANGE,2024.01.01..2024.12.31,//按日分区 HASH,[INT,10]])//哈希分桶

4.3 排序列优化

//设置排序列加速查询 db=database("dfs://sorted_db",VALUE,1..100)schema=table(1:0,`device_id`timestamp`temperature`humidity,[INT,TIMESTAMP,DOUBLE,DOUBLE])//创建表时指定排序列 db.createPartitionedTable(schema,`sensor_data,`device_id,`timestamp//按时间排序)//排序后查询更快 select*fromloadTable("dfs://sorted_db","sensor_data")where device_id=1andtimestamp between2024.01.01and2024.01.02

五、冷热数据分离

5.1 分层存储

5.2 数据迁移

//数据迁移函数defmigrateToCold(dbPath,tableName,cutoffDate){db=database(dbPath)t=loadTable(db,tableName)//查询冷数据 coldData=select*fromt where date(timestamp)<cutoffDate//写入冷存储 cold_db=database("dfs://cold_storage")loadTable(cold_db,tableName).append!(coldData)//删除原数据 dates=distinct(date(coldData.timestamp))for(dindates){dropPartition(db,[d])}returncoldData.rows()}//定期迁移 scheduleJob("migrate_cold","冷数据迁移",def(){migrateToCold("dfs://iot_db","sensor_data",today()-90)},02:00,2024.01.01,2030.12.31,'D')

5.3 降采样存储

//历史数据降采样defdownsampleData(dbPath,tableName,startDate){t=loadTable(dbPath,tableName)//降采样：1分钟→1小时 downsampled=select device_id,bar(timestamp,1h)ashour,avg(temperature)asavg_temp,max(temperature)asmax_temp,min(temperature)asmin_temp,count(*)ascountfromt where date(timestamp)=startDate group by device_id,bar(timestamp,1h)//写入降采样表 loadTable(dbPath,"sensor_data_hourly").append!(downsampled)returndownsampled.rows()}//每日降采样 scheduleJob("downsample","数据降采样",def(){downsampleData("dfs://iot_db","sensor_data",today()-1)},01:00,2024.01.01,2030.12.31,'D')

六、存储监控

6.1 存储空间监控

//查看数据库大小defgetDatabaseSize(dbPath){tables=tables(dbPath)total=0for(tintables){total+=getTableSize(dbPath,t.name)}returntotal}//查看各表大小deflistTableSizes(dbPath){tables=tables(dbPath)returnselect name,getTableSize(dbPath,name)assize_bytesfromtables order by size_bytes desc}listTableSizes("dfs://iot_db")

6.2 压缩率监控

//监控压缩效果defmonitorCompression(dbPath,tableName){meta=getTabletsMeta(dbPath,tableName)returnselect partition,count(*)aschunk_count,sum(size)ascompressed_size,sum(originalSize)asoriginal_size,sum(originalSize)/sum(size)ascompression_ratiofrommeta group by partition}monitorCompression("dfs://iot_db","sensor_data")

七、最佳实践

7.1 压缩策略

数据类型	推荐算法	说明
时间列	DELTA	时间递增
整数列	DELTA	连续整数
浮点列	ZSTD	随机数据
符号列	BITMAP	低基数
字符串	LZ4	通用场景

7.2 存储优化清单

优化项	建议
数据类型	使用SYMBOL替代STRING
分区大小	1-10GB
排序列	常用查询列
压缩算法	根据数据特点选择
冷热分离	定期迁移历史数据
降采样	历史数据降精度