当前位置: 首页 > news >正文

时序数据压缩和模态匹配

Less is More: Efficient Time Series Dataset Condensation via Two-fold Modal Matching

这是全球首个面向时间序列的数据集压缩框架TimeDC,用双模态匹配(频率+训练轨迹)把海量时序数据压缩成极小合成数据集,同时让模型效果接近用全量数据训练,大幅降低存储与算力成本。

链接:https://www.vldb.org/pvldb/vol18/p226-miao.pdf
代码:https://github.com/uestc-liuzq/STdistillation
作者:Hao Miao, Ziqiao Liu, Yan Zhao, Chenjuan Guo, Bin Yang, Kai Zheng, Christian S. Jensen
关键词:时序数据压缩,模态匹配

一、研究背景与问题

  1. 痛点
    • 物联网/边缘设备产生海量时序数据,存储、预处理、训练成本极高,边缘设备难以承载。
    • 传统方法:核心集(Coreset)靠启发式采样,无法保证最优解;图像领域的数据集压缩方法不适应时序的趋势、周期性等复杂时序依赖
  2. 三大挑战
    • 有效性与泛化:压缩数据易过拟合,难以适配不同网络。
    • 时序依赖:无法捕捉趋势、季节、多变量耦合特征。
    • 可扩展性:双层优化耗时、易内存溢出。

二、核心创新:双模态匹配机制

TimeDC用频率匹配保时序模式,训练轨迹匹配保模型泛化,解决上述全部挑战。

1. 整体框架

先在全量数据上预训练专家轨迹存入缓冲池 → 用压缩数据训练模型 → 同时对齐频率训练轨迹→ 得到极小高质量压缩集。


2. 三大核心模块

(1)时序特征提取 TSFE
  • 通道独立机制:把多变量时序拆成单变量单独建模,避免特征耦合干扰。
  • 分块机制 Patching:切分成子序列块,大幅降低自注意力复杂度,提速+省内存。
  • 堆叠TSOperator:自注意力+全连接层,捕捉长时序依赖。
(2)分解驱动频率匹配 DDFM(保时序模式)
  • 对每层特征做时序分解:分离趋势周期
  • 用余弦相似度对齐原始与压缩数据的频率,保证压缩数据保留趋势、周期性等核心时序规律。
(3)课程式训练轨迹匹配 CT²M(保泛化与效率)
  • 专家缓冲池:离线预计算全量数据的模型参数轨迹(专家轨迹),避免在线双层优化,防内存溢出、大幅降训练成本
  • 课程式查询:从“相似轨迹”到“差异轨迹”逐步匹配,让压缩数据模仿全量数据的长期训练动态,提升泛化。

三、总体优化目标

总损失 = 任务专属损失(预测/分类) + 频率匹配损失 + 轨迹匹配损失

四、实验结论(关键结果)

  1. 效果最优
    • 在7个时序预测数据集、3个分类数据集上,超过所有核心集与数据集压缩方法,MAE/RMSE最高降低13.49%/26.59%
    • 压缩数据训练效果接近全量数据
  2. 效率极高
    • 训练时间比同类方法快73%以上,内存占用最高降至1/10
    • 存储仅为原数据的1%4%**,参数仅为传统Transformer的**1/51/50
  3. 泛化强
    • 压缩数据可直接用于Autoformer/Informer/Transformer等不同架构,效果稳定。
  4. 落地场景
    • 边缘设备流式学习:解决灾难性遗忘,适配资源受限环境。

五、核心贡献总结

  1. 首次提出时序数据集压缩,填补技术空白。
  2. 双模态匹配:频率匹配保时序特征,轨迹匹配保泛化。
  3. 专家缓冲池+分块机制:解决内存溢出、训练慢的工程难题。
  4. 实测在预测、分类、边缘流式学习均SOTA,成本大幅降低。

六、一句话概括

TimeDC用“留时序规律+仿训练行为”的双匹配思路,把大数据变成小数据,让时序模型在边缘设备也能低成本、高性能跑起来。

http://www.jsqmd.com/news/632174/

相关文章:

  • Harness 中的事件溯源:以事件日志重建状态
  • Java项目-基于SpringBoot+MyBatis-Plus+MySQL+Layui的校园报修系统设计与实现(附资料)
  • 彻底告别OpenClaw使用焦虑:我给他装上了“透视眼”和“批量克隆模组贾
  • CSS变量与自定义属性详解
  • Unity中高效加载并显示图片到UI的两种实现方式
  • 华为OD机试 - 明日之星选举(Java 新系统 100分)
  • AI编程时代,人类程序员还剩下什么?堂
  • Spring Data 2026 高级查询:优雅处理复杂数据操作
  • 【IIC通信】Chap.2 从“线与”到“时序”:I2C总线协议深度解析与实战信号分析
  • 智能车竞赛独轮组信标灯系统全解析:从硬件选型到实战调试技巧
  • 2026黄花梨家具工厂推荐:南通小叶紫檀家具、南通红木家具工厂、南通红木屏风隔断、南通红木床生产厂家、南通红木案几工厂选择指南 - 优质品牌商家
  • **BERT在自然语言处理中的应用:从理论到代码实践**在深度学习飞速发展的今天,**BERT(Bidirectiona
  • 基于STM32F407与W5500的HAL库TCP通信实战指南
  • 神似赵丽颖!苏棋《无限超越班4》惊艳登场 实力晋级引爆热议
  • 2026年4月好吃的火锅品牌推荐,火锅店/社区火锅/特色美食/火锅/美食,火锅品牌推荐分析 - 品牌推荐师
  • 【实战教程】从零开发Chrome扩展:自动采集小红书评论并接入DeepSeek AI
  • C语言入门:秒懂数据类型
  • 技术判断力之AI三问姑
  • 加蓬BIETC认证哪家可靠:多哥ECTN认证/布基纳法索ECTN认证/贝宁ECTN认证/几内亚ECTN认证/利比里亚ECTN认证/选择指南 - 优质品牌商家
  • 动态数码管鬼影问题全攻略:从51单片机消影代码到TM1637芯片方案
  • 基于STM32与HJ-XJ5的五路灰度传感器PID巡线实战解析
  • 【实战】ESP32 + LN298N 驱动编码器推杆:从零搭建行程闭环控制系统
  • C语言程序设计基础
  • 【51单片机非精准计时2个外部中断启停】2023-5-29
  • 如何在6小时内将小说变成爆款推文视频?TaleStreamAI完整指南
  • FPGA实战:在Quartus II里给你的16位除法器做个“体检”——从仿真、时序分析到资源消耗全流程
  • 2026年热门的青岛锅炉养护剂实力工厂推荐 - 行业平台推荐
  • Vivado FFT IP核避坑指南:从Matlab数据生成到FPGA验证的完整流程
  • 2026年口碑好的专精特新中小企业申报/2026年专精特新申报综合评价公司 - 行业平台推荐
  • PDE (Processing D Editor) 三维场景编辑器 · 软件白皮书 · 基于 v..德