当前位置：首页 > news >正文

严格因果的零泄露白盒框架——从哈密顿能量守恒到希尔伯特相位流形的工业故障早期预警

news 2026/7/15 18:27:57

深度学习在故障诊断领域攻城略地，但两个根本性质疑始终悬而未决：
“你的模型真的没有偷看未来吗？它的报警依据究竟是物理规律还是统计噪声？”

传统智能诊断方法大多默认一个危险的假设——训练集和测试集独立同分布。但是在工业时序预测中，这几乎从不成立。更致命的是，许多看似严谨的论文在预处理阶段（归一化、特征选择、异常检测器调参）无意中使用了未来信息，导致离线验证指标漂亮，线上部署却彻底失效，与此同时，纯数据驱动的黑箱模型拒绝向工程师解释为什么在这个时刻报警。

01 问题动机：2个被长期忽视的定时炸弹

第1颗炸弹：无处不在的数据泄露
典型的时间序列故障预测流程包含以下步骤：加载全部数据 → 计算全局均值和方差做标准化 → 对全序列提取特征 → 划分训练集和测试集 → 训练模型 → 报告测试集准确率。
这个流程至少埋下了两处泄露：

标准化参数（均值、方差）来自未来的样本，等于在训练时就告诉模型未来的振动幅度大概是什么量级；
特征提取（如滤波器的上下限）通常根据全序列的信噪比或频谱人为设定，同样引入了未来信息。
结果就是，模型在离线测试中表现优异，但一旦部署到只拥有历史数据的在线系统，由于真实流数据的统计特性尚未出现，标准化和滤波器都会严重失配。

第2颗炸弹：物理可解释性的缺位
一个纯粹的深度异常检测模型可能会学到与故障无关的相关性——比如传感器的温漂、工频干扰、或者某个特定负载下的谐波模式。当工程师追问这个报警对应哪个频率成分？、是哪一次冲击触发了判断？时，模型只能沉默。
在航空发动机健康管理、风电齿轮箱在线监测等场景中，这种沉默是不可接受的。工程师需要的不是准确率数字，而是一条可追溯的证据链。

要想解决这两个痛点：

零泄露协议：所有预处理参数（滤波器、标准化、隔离森林）只由前10%健康基线样本确定，后续全部样本仅做样本外预测——模型从未见过未来，未来也从未影响模型。
物理锚定特征：放弃纯统计特征（仅保留RMS和峭度作为对照），引入哈密顿能量残差与希尔伯特相位流形曲率两个动态量，使每个报警都能追溯到具体的能量耗散或相位畸变事件。

02 架构设计

整个流程分为3个层级，层层递进，且每1层的决策都不依赖未来信息。

2.1 第1层：物理特征工程

去趋势与带通滤波：消除传感器直流偏移和极低频漂移；带通范围固定在500–8000 Hz，覆盖轴承内圈、外圈、滚动体的主要共振频带。滤波器参数在全实验中固定，不根据数据调整——这是防止泄露的第一道闸门。
哈密顿能量残差：将归一化后的振动信号视为一个伪守恒系统的位移。在健康状态下，动能+势能总和应保持平稳；一旦出现微裂纹或点蚀，滚动体撞击缺陷会瞬间耗散能量，表现为哈密顿量序列的剧烈波动。我们提取该波动程度的标准化标准差，作为第一个物理特征。
该特征的核心优势在于：它对幅值绝对大小不敏感，只关注能量守恒的破坏程度，因此即使传感器老化或负载变化导致整体振幅漂移，报警阈值依然稳定。
希尔伯特相位频率：通过希尔伯特变换构造解析信号，提取瞬时相位并计算其变化率——即瞬时频率。健康轴承的瞬时频率围绕理论转频做微小平稳波动；而早期故障会在每个旋转周期内引入一个微小的相位跳跃（滚动体滑过缺陷边缘），导致瞬时频率的标准差突然增大。
这个特征相当于把振动信号投影到相位流形上，测量其局部曲率变化。相比包络谱，它对早期弱冲击的敏感度高出一个数量级，且对加性白噪声具有天然的鲁棒性。

2.2 第2层：零泄露隔离森林（决策核心）

得到特征序列后，执行严格的时序截断训练：

健康基线截取：取每个测试集前10%的样本作为健康基线集合。这部分数据被视为正常历史数据，模型只允许从这里学习什么是健康。
独立标准化：仅使用健康基线样本计算每个特征的均值和标准差，对健康基线自身进行标准化。保存这两个参数，用于后续所有样本的变换——这种离线拟合、在线变换的方式杜绝了未来数据渗入标准化参数的可能性。
隔离森林训练：同样只在健康基线样本上训练隔离森林模型。模型学习如何将健康样本聚集在高密度区域，而异常样本（即使是健康基线内部的偶然噪声）会被划分为低密度区。我们固定污染率参数为0.01，但这仅作为算法停止条件，不改变无监督学习的本质。
样本外预测：将标准化参数和训练好的隔离森林冻结，然后应用于全部样本（包括健康基线自身）。注意健康基线内的预测结果就是真实的在线误报率——因为模型从未见过这些样本的“未来信息”，它对健康基线的判断完全等同于部署后的日常监测。
健康因子映射：原始隔离森林输出为决策分数（正值为正常，负值为异常）。我们通过Sigmoid函数将其映射到(0,1]区间，得到直观的健康因子。健康因子越接近1表示越健康，越接近0表示越异常。映射参数（基准均值和标准差）完全由健康基线上的决策分数决定，同样不存在泄露。