当前位置：首页 > news >正文

滑动窗口异常检测方法识别异常数据点

news 2026/6/14 17:22:13

本章主要讲解如何用py实现滑动窗口识别异常值

一、导入数据

这个数据集是有80个样本，前四列分别是是序号、温度，oC、频率，Hz、磁芯材料，后面的1024列是一个周期内的磁通密度B，T

import pandas as pd
import numpy as np
# 读取数据
file_path = "../附件二（测试集） - 副本.xlsx"
df = pd.read_excel(file_path, sheet_name='测试集')

二、提取测量列（4到1023列）

我们只需要第4到1023列的磁通密度特征，对其进行异常值检测

data_cols = df.columns[4:]  # 前4列为序号、温度、频率、磁芯材料
data = df[data_cols].copy()
#%%
# 三、参数设置
window_size = 5   # 滑动窗口大小
threshold = 3.0   # 异常阈值：均值±3*标准差，即3西格玛法

四、滑动窗口异常检测

重点讲解这个函数，传入的第一个参数是一个Series，也就是要识别的一个行；
首先对传入的一个行进行深拷贝，避免影响原来的数值，然后将其类型改成float，便于数值计算；
之后进行循环i，这个i是探查第i个位置，这个位置是处在窗口的两端；
然后定义窗口，当i比较小的时候，这个start默认为0，end会随着探查的位置不断增加：当i=0，start=0，end=1，窗口位置就是[0:1];当i=1时,start=0,end=2,窗口位置就是[0,2];当i=4时，start=0,end=5，窗口位置就是[0:5];之后的话start里面的max就始终取大于0的一边，窗口长度始终为5；
然后在每个窗口中根据3sigma原则检测异常，若if成立，则当前的i点就标记为np.nan；
最后返回一个Series

def detect_anomalies(series, window=5, k=3.0):series = series.copy()series_values = series.values.astype(float)for i in range(len(series_values)):# 定义窗口范围start = max(0, i - window + 1)end = i + 1window_data = series_values[start:end]# 计算均值和标准差mean = np.nanmean(window_data)std = np.nanstd(window_data)# 检测异常if std > 0 and abs(series_values[i] - mean) > k * std:series_values[i] = np.nan  # 异常置为 NaNreturn pd.Series(series_values, index=series.index)

五、对每一行进行滑动窗口检测

这里的idx一行一行循环整张表，每轮拿到当前行的索引标记 idx，然后对该行进行滑动窗口处理异常值

for idx in data.index:data.loc[idx] = detect_anomalies(data.loc[idx], window=window_size, k=threshold)

六、将异常检测结果合并回原始数据

df_cleaned = df.copy()
df_cleaned[data_cols] = data
# 保存处理后的数据
df_cleaned.to_excel("2024年C题_滑动窗口处理.xlsx", index=False)
print("异常检测完成，结果已保存至 '2024年C题_滑动窗口处理.xlsx'")

查看全文

http://www.jsqmd.com/news/1013073/