本章主要讲解如何用py实现滑动窗口识别异常值
一、导入数据
这个数据集是有80个样本,前四列分别是是序号、温度,oC、频率,Hz、磁芯材料,后面的1024列是一个周期内的磁通密度B,T
import pandas as pd
import numpy as np
# 读取数据
file_path = "../附件二(测试集) - 副本.xlsx"
df = pd.read_excel(file_path, sheet_name='测试集')
二、提取测量列(4到1023列)
我们只需要第4到1023列的磁通密度特征,对其进行异常值检测
data_cols = df.columns[4:] # 前4列为序号、温度、频率、磁芯材料
data = df[data_cols].copy()
#%%
# 三、参数设置
window_size = 5 # 滑动窗口大小
threshold = 3.0 # 异常阈值:均值±3*标准差,即3西格玛法
四、滑动窗口异常检测
重点讲解这个函数,传入的第一个参数是一个Series,也就是要识别的一个行;
首先对传入的一个行进行深拷贝,避免影响原来的数值,然后将其类型改成float,便于数值计算;
之后进行循环i,这个i是探查第i个位置,这个位置是处在窗口的两端;
然后定义窗口,当i比较小的时候,这个start默认为0,end会随着探查的位置不断增加:当i=0,start=0,end=1,窗口位置就是[0:1];当i=1时,start=0,end=2,窗口位置就是[0,2];当i=4时,start=0,end=5,窗口位置就是[0:5];之后的话start里面的max就始终取大于0的一边,窗口长度始终为5;
然后在每个窗口中根据3sigma原则检测异常,若if成立,则当前的i点就标记为np.nan;
最后返回一个Series
def detect_anomalies(series, window=5, k=3.0):series = series.copy()series_values = series.values.astype(float)for i in range(len(series_values)):# 定义窗口范围start = max(0, i - window + 1)end = i + 1window_data = series_values[start:end]# 计算均值和标准差mean = np.nanmean(window_data)std = np.nanstd(window_data)# 检测异常if std > 0 and abs(series_values[i] - mean) > k * std:series_values[i] = np.nan # 异常置为 NaNreturn pd.Series(series_values, index=series.index)
五、对每一行进行滑动窗口检测
这里的idx一行一行循环整张表,每轮拿到当前行的索引标记 idx,然后对该行进行滑动窗口处理异常值
for idx in data.index:data.loc[idx] = detect_anomalies(data.loc[idx], window=window_size, k=threshold)
六、将异常检测结果合并回原始数据
df_cleaned = df.copy()
df_cleaned[data_cols] = data
# 保存处理后的数据
df_cleaned.to_excel("2024年C题_滑动窗口处理.xlsx", index=False)
print("异常检测完成,结果已保存至 '2024年C题_滑动窗口处理.xlsx'")
