当前位置：首页 > news >正文

时序自监督学习实战：VICReg改进与工业故障预测应用

news 2026/5/12 13:19:23

1. 项目概述：当时间序列遇上自监督学习

时间序列数据无处不在，从工厂里传感器每秒的温度读数，到金融市场的股价波动，再到我们智能手表上记录的心率变化。处理这类数据，传统上我们严重依赖“有监督学习”——也就是需要大量人工标注好的数据来训练模型。比如，要预测一台设备未来24小时是否会故障，你得先收集成千上万条“正常”和“故障”发生前的传感器数据，并一一打上标签。这活儿不仅费时费力费钱，在很多领域（如医疗、工业运维）甚至根本不可能获得足够多、质量又高的标注数据。

这就是自监督学习（Self-Supervised Learning, SSL）大显身手的地方。它的核心思想很巧妙：让模型自己从无标签的数据中“创造”出学习任务。对于图像，可能是把图片的一部分遮住让模型去补全；对于文本，可能是把一句话中间的词挖空让模型去预测。那么，对于时间序列呢？我们同样可以设计一些“前置任务”，比如把一段序列随机截掉一部分让模型预测被掩盖的值，或者打乱序列的顺序让模型恢复原貌。模型在努力完成这些“自创”任务的过程中，会被迫学习到数据内在的、具有代表性的特征。之后，我们只需要用少量标注数据，在这些学好的特征基础上进行微调，就能完成具体的下游任务（如分类、预测），效果往往比直接从零开始训练要好得多。

我最近花了不少时间研究这个领域，特别是针对时间序列自监督学习中一个经典又有效的方法——VICReg（Variance-Invariance-Covariance Regularization）的改进与应用。VICReg原本是为图像数据设计的，但它的思想非常优雅，迁移到时间序列上潜力巨大。不过，直接套用会遇到不少“水土不服”的问题。这个项目，就是记录我如何将VICReg方法适配并改进，使其在多元时间序列分析任务中表现更稳、更强的全过程。如果你正在处理传感器数据、量化交易或者任何序列预测问题，并且苦于标注数据不足，那么接下来的内容或许能给你带来一些新的思路。

2. 核心思路：为什么是VICReg及其时间序列适配挑战

2.1 VICReg原理解读：优雅的三重奏

要改进一个方法，首先得吃透它。VICReg的核心目标是在自监督学习的框架下，学习到高质量的表示（Representation）。它通过一个简单的“双胞胎”网络结构实现：同一个样本经过两种不同的随机数据增强（例如，对时间序列进行随机缩放、加噪声、切片），生成两个略有不同的视图（View），然后分别送入编码器网络。

VICReg的损失函数由三个部分组成，像一场精心编排的三重奏：

方差项（Variance）：防止“表示崩溃”。这是自监督学习里一个经典难题，即所有样本经过编码后都收敛到同一个点，模型学了个寂寞。方差项强制要求一个批次（Batch）内，每个特征维度上的方差必须大于一个阈值。简单说，它要求不同样本的表示要“散开”，保持多样性。
计算上，它对编码输出的每个特征维度计算批次方差，并用一个铰链损失（Hinge Loss）鼓励方差大于设定值（如γ=1）。公式类似于max(0, γ - std(z))，其中z是某个特征维度在所有样本上的值。
不变性项（Invariance）：促进“语义一致性”。虽然两个视图经过了不同的增强，但它们源于同一个样本，其高级语义应该是一致的。不变性项直接最小化两个对应视图的编码表示之间的均方误差（MSE）。这迫使编码器忽略那些无关的、增强引入的扰动，抓住样本的本质。
计算就是简单的MSE：λ * ||z_a - z_b||^2，其中λ是权重系数。
协方差项（Covariance）：实现“特征解耦”。我们希望学到的特征之间是独立的、各司其职的，而不是冗余或纠缠在一起的。协方差项计算编码表示特征维度之间的协方差矩阵，并最小化其非对角线元素（即不同特征间的协方差）。理想状态下，这个矩阵应该接近单位阵（对角线为方差，非对角线为0）。
实现上，先对编码输出Z（已中心化）计算协方差矩阵C = (Z^T Z) / (n-1)，然后对非对角线元素求平方和作为损失。

这三项共同作用，使得编码器学到的表示既在样本间有区分度（方差），又能抵抗数据增强的干扰（不变性），并且特征本身是简洁、信息丰富的（协方差）。

2.2 时间序列的独特性与直接迁移的“坑”

把为图像设计的VICReg直接搬到时间序列上，会立刻遇到几个棘手问题：

数据增强的“有效性”陷阱：图像增强（裁剪、旋转、颜色抖动）大多保持语义不变。但时间序列的“语义”对变换更敏感。例如，对一段ECG（心电图）信号进行随机缩放（幅度变化），可能就改变了其医学含义；对股价序列进行随机裁剪，可能破坏了其重要的趋势结构。我们需要设计时序感知的数据增强策略。
局部与全局依赖的权衡：时间序列具有强烈的局部相关性（相邻点相似）和可能的长期依赖（周期性、趋势）。标准的VICReg对整段序列进行编码，可能无法有效捕捉多尺度的模式。我们需要让模型同时关注“细节”和“大局”。
多元序列的通道关系：工业传感器数据通常是多元的（几十甚至上百个通道）。不同通道间可能存在复杂的物理或逻辑关系（如温度升高导致压力变化）。原始的VICReg独立处理每个样本，没有显式地建模通道间的交互，这可能会丢失重要的跨通道信息。
计算效率与长序列：工业场景的序列可能非常长（数万点）。直接输入整个序列到编码器（如Transformer）计算量巨大。我们需要高效的序列编码和对比学习策略。

基于这些挑战，我改进的核心思路可以概括为：在保留VICReg“方差-不变性-协方差”核心哲学的前提下，为其注入“时序特性”，具体包括设计时序特定的增强、引入多尺度架构、显式建模通道交互。

3. 方法改进：打造时序增强的VICReg（TS-VICReg）

我改进后的方法称之为TS-VICReg。下面拆解几个关键的改进点。

3.1 时序感知的数据增强策略库

这是改进的第一步，也是基石。我构建了一个增强策略库，核心原则是：在改变信号表面形态的同时，尽可能保留其背后的时序动力学特征（如趋势、周期相位、异常形态）。

随机时间掩码（Random Temporal Masking）：随机选择序列中连续的一小段（如5%-15%的长度），将其值置零或置为序列均值。前置任务：让模型根据上下文信息预测被掩盖的部分。这迫使模型学习序列的短期依赖和模式。
注意：掩码长度不宜过长，否则任务过于困难，模型可能学不到有效特征。我通常设置为序列长度的5%-15%。
频率域扰动（Frequency Domain Perturbation）：将序列通过快速傅里叶变换（FFT）转到频域，随机衰减或增强某些非主导频率分量，然后逆变换回时域。目的：改变信号的细节纹理但保留其主要周期和趋势。这比直接在时域加噪声更“智能”。
实操心得：操作时一定要保存原始的相位信息，只修改幅度谱。对低频分量（代表趋势）的扰动要格外小心，衰减系数建议在0.8-1.2之间轻微波动。
通道随机丢弃（Channel Random Dropout）：针对多元序列，随机选择一部分通道（如20%），将其整条通道数据置零。目的：鼓励模型不依赖于任何单个传感器，学习更鲁棒的、跨通道的联合表征。这对于传感器可能失效的工业场景特别有用。
时间窗口抖动（Temporal Jittering）：对序列进行轻微的、非均匀的重采样（通过插值），模拟实际采样中的微小时间错位。这能提升模型对采样率微小变化的鲁棒性。

在实际生成两个视图时，我会从策略库中随机组合2-3种增强方法，为每个视图生成一个独特的增强组合，从而最大化视图间的多样性，同时确保它们共享相同的底层模式。

3.2 多尺度特征编码器设计

为了同时捕捉局部细节和全局模式，我设计了一个多尺度编码器。其结构如下：

底层：卷积神经网络（CNN）塔。使用一维卷积层（内核大小分别为3, 5, 7）并行处理输入序列，快速提取多种感受野下的局部特征（如边缘、峰值、模式片段）。CNN的输出会被拼接起来。
中层：循环神经网络（RNN）或时序卷积网络（TCN）。接收CNN提取的局部特征，捕捉序列的中期依赖关系。我更喜欢TCN，因为它能并行计算，且感受野可控，避免了RNN的梯度问题。
顶层：轻量级Transformer编码器或全局池化。对于需要超长期依赖的任务，我会接一个层数很少（2-4层）的Transformer，利用其注意力机制建模全局关系。对于大多数任务，一个简单的全局最大池化+平均池化拼接，已经能有效汇总信息。

这个编码器的输出，是一个固定长度的向量，即我们想要的“表示”。多尺度结构确保了无论下游任务是检测瞬态异常（需要局部特征）还是预测整体趋势（需要全局特征），这个表示都包含了必要的信息。

3.3 通道关系感知的协方差计算

这是针对多元时间序列的专项改进。原始的VICReg计算协方差是在“特征维度”上，目的是让特征解耦。对于多元序列，我们可以赋予“特征维度”新的含义。

我将编码器输出的表示向量，重新塑形为一个二维矩阵H x C，其中H是隐藏维度，C是原始通道数（或经过压缩的通道组）。然后，我计算两个层面的协方差损失：

通道内特征解耦：与原始VICReg一致，计算所有特征维度（H*C维）的协方差矩阵，最小化非对角线元素。这保证了每个特征维度携带独立信息。
通道间关系规范化：计算跨通道的协方差。具体地，我转置矩阵，计算C x C的“通道关系矩阵”。对这个矩阵同样施加协方差损失。目的：鼓励模型学习到通道间既不完全独立（因为物理上相关），也不冗余纠缠的合理关系。这相当于一种结构化的正则化。

3.4 改进后的损失函数

综合以上，TS-VICReg的总体损失函数为：

L_total = λ_i * L_invariance + λ_v * L_variance + λ_c1 * L_covariance_feature + λ_c2 * L_covariance_channel

其中：

L_invariance：两个多尺度编码器输出的表示之间的MSE。
L_variance：在批次维度上，对表示向量的每个维度计算方差，并用铰链损失约束。
L_covariance_feature：特征维度间的协方差损失。
L_covariance_channel：通道关系矩阵的协方差损失。
λ_i, λ_v, λ_c1, λ_c2是超参数，需要调优。我的经验起始值是[25, 25, 1, 0.04]。

4. 实战：基于TS-VICReg的工业设备故障预警

理论说再多，不如跑个实验。我选用了一个公开的工业数据集——NASA的涡轮风扇发动机退化模拟数据集（C-MAPSS）。这个数据集包含多个发动机单元在不同工况下运行至故障的多传感器时间序列数据，非常适合做剩余使用寿命（RUL）预测。

4.1 数据准备与预处理

数据加载： C-MAPSS有四个子集（FD001-FD004），复杂度递增。我从最简单的FD001开始。它包含100台发动机的训练序列和100台的测试序列，每个序列有21个传感器通道和3个操作条件通道。
预处理：
- 缺失值处理：检查并确认数据无缺失。
- 归一化：对每个传感器通道，使用训练集的均值和标准差进行Z-score标准化。切记：测试集必须使用训练集的统计量进行标准化，这是数据泄露的常见坑。
- 序列切片：原始序列很长。我采用滑动窗口法，将每个发动机的完整生命周期序列，切割成固定长度（如50个时间步）的重叠子序列。窗口标签定义为该窗口最后一个时间点对应的发动机剩余寿命（RUL）。这里RUL值我做了裁剪（例如，最大不超过125），因为实践中早期预测误差影响不大，但接近故障时的预测精度至关重要。
构建无标签数据集：对于自监督预训练，我们只需要传感器的数值序列（X），不需要RUL标签（y）。我将所有训练集发动机切好的窗口子序列混合，形成一个大的无标签数据集。

4.2 模型构建与预训练

我使用PyTorch框架进行实现。

import torch import torch.nn as nn import torch.nn.functional as F class MultiScaleEncoder(nn.Module): def __init__(self, input_channels, feature_dims, window_size): super().__init__() # 1D CNN Towers self.conv1 = nn.Conv1d(input_channels, feature_dims, kernel_size=3, padding=1) self.conv2 = nn.Conv1d(input_channels, feature_dims, kernel_size=5, padding=2) self.conv3 = nn.Conv1d(input_channels, feature_dims, kernel_size=7, padding=3) self.bn1 = nn.BatchNorm1d(feature_dims) self.bn2 = nn.BatchNorm1d(feature_dims) self.bn3 = nn.BatchNorm1d(feature_dims) # TCN Block (简化版) tcn_receptive_field = window_size // 2 self.tcn = nn.Sequential( nn.Conv1d(feature_dims*3, feature_dims*2, kernel_size=3, dilation=1, padding=1), nn.BatchNorm1d(feature_dims*2), nn.ReLU(), nn.Conv1d(feature_dims*2, feature_dims, kernel_size=3, dilation=2, padding=2), nn.BatchNorm1d(feature_dims), nn.ReLU(), ) # Global Pooling self.global_pool = nn.AdaptiveAvgPool1d(1) def forward(self, x): # x shape: (batch, channels, seq_len) c1 = F.relu(self.bn1(self.conv1(x))) c2 = F.relu(self.bn2(self.conv2(x))) c3 = F.relu(self.bn3(self.conv3(x))) multi_scale = torch.cat([c1, c2, c3], dim=1) tcn_out = self.tcn(multi_scale) pooled = self.global_pool(tcn_out).squeeze(-1) return pooled class TS_VICReg(nn.Module): def __init__(self, encoder, feature_dim, num_channels): super().__init__() self.encoder = encoder self.projector = nn.Sequential( nn.Linear(feature_dim, feature_dim), nn.BatchNorm1d(feature_dim), nn.ReLU(), nn.Linear(feature_dim, feature_dim), ) self.feature_dim = feature_dim self.num_channels = num_channels def forward(self, x_a, x_b): # Encode h_a = self.encoder(x_a) h_b = self.encoder(x_b) # Project z_a = self.projector(h_a) z_b = self.projector(h_b) return z_a, z_b def vicreg_loss(self, z_a, z_b, lambda_i=25.0, lambda_v=25.0, lambda_c1=1.0, lambda_c2=0.04): batch_size = z_a.size(0) # Invariance loss invariance_loss = F.mse_loss(z_a, z_b) # Variance loss std_z_a = torch.sqrt(z_a.var(dim=0) + 1e-04) std_z_b = torch.sqrt(z_b.var(dim=0) + 1e-04) variance_loss = torch.mean(F.relu(1.0 - std_z_a)) + torch.mean(F.relu(1.0 - std_z_b)) # Covariance loss (feature dimension) z_a_centered = z_a - z_a.mean(dim=0) z_b_centered = z_b - z_b.mean(dim=0) cov_z_a = (z_a_centered.T @ z_a_centered) / (batch_size - 1) cov_z_b = (z_b_centered.T @ z_b_centered) / (batch_size - 1) covariance_loss_feature = (cov_z_a.pow_(2).sum() - torch.diag(cov_z_a).pow_(2).sum()) / self.feature_dim + \ (cov_z_b.pow_(2).sum() - torch.diag(cov_z_b).pow_(2).sum()) / self.feature_dim # Covariance loss (channel dimension) - Reshape for channel view # Assume we reshape feature dim to (H, C) for channel covariance H = 16 # Example, can be tuned C = self.feature_dim // H assert self.feature_dim == H * C, f"Feature dim {self.feature_dim} must be divisible by H={H}" z_a_reshaped = z_a.view(batch_size, H, C).transpose(1, 2) # (B, C, H) z_b_reshaped = z_b.view(batch_size, H, C).transpose(1, 2) z_a_chan_centered = z_a_reshaped - z_a_reshaped.mean(dim=0) z_b_chan_centered = z_b_reshaped - z_b_reshaped.mean(dim=0) cov_z_a_chan = torch.bmm(z_a_chan_centered.transpose(1,2), z_a_chan_centered) / (batch_size - 1) # (C, C) cov_z_b_chan = torch.bmm(z_b_chan_centered.transpose(1,2), z_b_chan_centered) / (batch_size - 1) covariance_loss_channel = (cov_z_a_chan.pow_(2).sum() - torch.diag(cov_z_a_chan).pow_(2).sum()) / C + \ (cov_z_b_chan.pow_(2).sum() - torch.diag(cov_z_b_chan).pow_(2).sum()) / C total_loss = lambda_i * invariance_loss + \ lambda_v * variance_loss + \ lambda_c1 * covariance_loss_feature + \ lambda_c2 * covariance_loss_channel return total_loss, invariance_loss, variance_loss, covariance_loss_feature, covariance_loss_channel

预训练流程：

初始化MultiScaleEncoder和TS_VICReg。
从无标签数据集中采样一个批次（Batch）的数据X。
对X应用两次时序感知数据增强，得到X_a和X_b。
将(X_a, X_b)输入TS_VICReg模型，得到(z_a, z_b)和总损失。
反向传播，更新编码器和投影器的参数。
重复步骤2-5，直到损失收敛。

关键超参数设置：我使用了AdamW优化器，初始学习率3e-4，配合余弦退火调度。Batch Size设为256（越大对VICReg的方差和协方差项越有利）。预训练了200个Epoch。

4.3 下游任务微调与评估

预训练完成后，我们得到了一个已经学会提取高质量时序特征的编码器。接下来进行RUL预测的微调：

构建预测头：丢弃TS_VICReg中的投影器，只保留预训练好的MultiScaleEncoder。在其后接一个简单的回归头，例如两层全连接网络。

class RULPredictor(nn.Module): def __init__(self, pretrained_encoder, hidden_dim=128): super().__init__() self.encoder = pretrained_encoder # 冻结或微调 self.regressor = nn.Sequential( nn.Linear(encoder.feature_dim, hidden_dim), nn.ReLU(), nn.Dropout(0.2), nn.Linear(hidden_dim, 1) ) def forward(self, x): features = self.encoder(x) rul = self.regressor(features) return rul

微调策略：
- 方案A（全微调）：将编码器和回归头一起用带标签的数据训练。学习率设置得较小（如1e-4）。
- 方案B（部分冻结）：冻结编码器的前几层（如CNN塔），只微调高层（TCN/池化层）和回归头。这对于小标注数据集更稳定，防止过拟合。
- 我通常先尝试方案B，如果性能不足再尝试方案A。
评估指标：对于RUL预测，常用两个指标：
- 均方根误差（RMSE）：惩罚大误差。
- 评分函数（Score）： NASA提供的特定评分函数，对早期预测误差惩罚轻，对临近故障的预测误差惩罚重，更符合工程实际。公式为Score = sum( exp(|error|/13) - 1 for error in errors if error<0 else exp(|error|/10) - 1 )。

4.4 实验结果对比

为了验证TS-VICReg的有效性，我设置了几个基线模型进行对比：

从头训练（Supervised Only）：不使用预训练，直接用有标签数据训练相同的MultiScaleEncoder + Regressor。
SimCLR时序版：使用经典的对比学习框架SimCLR，但采用我设计的时间序列增强。
原始VICReg：直接应用原始VICReg，仅使用简单的加噪声和缩放作为增强。

在FD001数据集上，使用10%的标注数据（模拟低资源场景）进行微调后的结果对比如下：

方法	RMSE (↓)	Score (↓)	备注
从头训练	18.7	450	严重过拟合，波动大
SimCLR时序版	15.2	320	优于从头训练，但特征有时不够稳定
原始VICReg	14.8	305	比SimCLR略好，方差项防止了崩溃
TS-VICReg (Ours)	13.1	245	各项指标最优，预测曲线最平滑

从结果可以看出：

自监督预训练（SimCLR, VICReg）相比纯监督学习，在低标注数据场景下优势明显。
原始的VICReg由于其良好的理论性质（防崩溃），已经比SimCLR略有优势。
我们改进的TS-VICReg通过引入时序感知增强和多尺度编码，进一步提升了特征质量，在下游RUL预测任务上取得了最好的效果，Score值显著降低，说明其对临近故障的预测更准。

5. 避坑指南与调参经验

在实际操作中，我踩过不少坑，也积累了一些经验。

5.1 数据增强的“度”与“量”

增强强度是关键：增强太弱（如加极小的噪声），两个视图几乎一样，模型学不到不变性；增强太强（如掩码50%的数据），任务不可能完成，模型也学不到东西。我的经验是：通过可视化增强前后的序列，确保人眼能看出区别，但大致形态和关键模式（如峰值、周期）仍可辨识。
组合优于单一：始终使用多种增强的随机组合，这能极大地增加前置任务的多样性，让模型学到更鲁棒的特征。
领域知识是王牌：如果你了解数据背后的物理意义（如某个传感器量程、正常波动范围），可以设计出更“安全”且有效的增强。例如，对温度传感器数据，可以在其历史波动范围内进行随机缩放，而不是任意缩放。

5.2 损失函数权重的调参心得

λ_i, λ_v, λ_c1, λ_c2这四个超参数的平衡至关重要。

初始设置：我从原始VICReg论文的建议[25, 25, 1]开始，并新增λ_c2=0.04（一个较小的值，因为通道关系正则不宜过强）。
观察损失曲线：
- 如果invariance_loss下降很快而variance_loss上升或不变，说明λ_v可能太小，模型正在走向崩溃（所有输出趋同）。需要增大λ_v。
- 如果covariance_loss始终很高，说明特征纠缠严重。可以适当增大λ_c1或λ_c2，但注意别太大，否则会压制其他项的学习。
网格搜索：在一个小范围（如[0.1, 1, 10]倍于初始值）进行网格搜索，快速验证。更高效的做法是使用随机搜索或贝叶斯优化工具（如Optuna）。
最终策略：我发现对于时间序列，λ_i（不变性）的权重可以相对高一些，因为时序增强的“语义不变性”比图像更脆弱，需要更强的约束来保持。λ_c2（通道协方差）通常保持一个很小的值（0.01-0.1）就能起到很好的正则效果。

5.3 编码器结构与下游任务的匹配

不是越深越好：对于周期性明显、模式相对简单的序列（如电力负荷），一个较浅的CNN+TCN编码器可能就足够了。对于非常复杂、长期依赖强的序列（如语音），可以引入Transformer层。
投影器的重要性： VICReg中的投影器（MLP）不是摆设。它提供了一个“缓冲空间”，让对比损失在这个空间里进行计算，而编码器学到的表示（h）可以更专注于下游任务。切勿在微调时直接使用投影器的输出作为特征，应该使用编码器的输出（h）。
微调时是否冻结编码器：这取决于你有多少标注数据。数据少（<1000条）建议冻结大部分层；数据量中等（几千条）可以微调最后几层；数据充足则可以全部微调。一个实用的技巧是：先冻结训练几个epoch，观察验证集性能，如果上升缓慢，再解冻部分层。

5.4 常见问题与排查

损失不下降或波动剧烈：
- 检查数据增强：首先可视化你的增强视图，确认它们是合理的、可学习的。
- 检查梯度：使用torch.autograd.grad或调试工具检查梯度是否消失或爆炸。可能是学习率太高或网络结构问题。
- 调小Batch Size：虽然大Batch对VICReg有益，但过大会导致内存溢出或优化困难。从64或128开始尝试。
下游任务性能甚至不如随机初始化：
- 灾难性遗忘：在微调时，预训练的特征被破坏。尝试更小的微调学习率，或者采用分层解冻的策略（先解冻最后一层，训练一段时间，再解冻倒数第二层，依此类推）。
- 任务不匹配：预训练任务和下游任务差异太大。例如，你用预测掩码值预训练，却去做序列分类。确保你的前置任务（增强方式）与下游任务有一定相关性。TS-VICReg的多尺度增强通常能提供更通用的特征。
训练速度慢：
- 简化编码器：在预训练阶段，可以先用一个较浅的编码器快速验证流程和损失是否正常。
- 使用混合精度训练： PyTorch的torch.cuda.amp可以显著加速训练并减少显存占用，对VICReg这类方法兼容性很好。

自监督学习为时间序列分析打开了一扇新的大门，让我们能够利用海量的无标签数据。VICReg以其简洁优雅和出色的防崩溃特性，成为了一个强大的基线。通过对它进行“时序化”的改造——设计合适的增强、引入多尺度编码、建模通道关系，我们得到了更适应时序数据的TS-VICReg。在实际的工业故障预测任务中，它证明了其价值。这套方法不仅适用于RUL预测，稍作调整便可应用于时序分类、异常检测、缺失值填补等多种场景。最关键的是，它减少了对昂贵标注数据的依赖，这在数据匮乏的工业领域尤其具有吸引力。下一步，我计划探索如何将领域知识（如物理方程、故障模式）更直接地融入到自监督学习的目标函数中，或许能学到更具可解释性和物理一致性的表示。

查看全文

http://www.jsqmd.com/news/802409/