当前位置: 首页 > news >正文

无监督通用流数据异常检测新方法SEAD

在当今许多工业和在线应用中,实时识别数据流中的异常(罕见的、意外的事件)至关重要。异常可能表明制造缺陷、系统故障、安全漏洞或其他重要事件。典型的基于机器学习的异常检测系统以监督方式使用标记样本进行训练。但在许多在线环境中,数据极其多样化且其分布不断变化,以至于收集和标记数据成本高昂。

此外,没有单一的异常检测(AD)模型在所有数据类型上都表现最佳。例如,某些AD模型对一类客户有效,而其他模型则对另一类客户有效。但对于给定的客户,事先并不清楚应部署哪个模型,因为客户的工作负载经常随时间变化,因此性能最佳的AD模型也随之变化。

在一篇将于2025年国际机器学习大会(ICML)上发表的论文中,我们尝试用我们称为SEAD(流数据异常检测集成)的方法来解决这些问题。SEAD使用一组异常检测模型的集成,因此它总能针对每种数据类型使用最佳模型,并且它以无监督的方式运行,因此在训练期间不需要标记的异常数据。它在在线环境中高效工作,实时处理流入的数据,并能动态适应数据的变化。

为了评估SEAD,我们将其与三个先前的异常检测模型(每个模型有四种超参数设置)以及一个基于规则的方法进行了比较,共计13个基线。在15项不同的任务中,SEAD取得了最高的平均排名(5.07)和最低的方差(6.64)。

奖励“沉默”

SEAD背后的基本见解是异常是罕见的。因此,SEAD为集成中持续产生较低异常分数的模型(或“基检测器”)分配更高的权重。由于不同的基检测器使用不同的评分系统,SEAD通过根据历史分数的分布将它们分配到不同的分位数来标准化这些分数。

为了计算权重,我们使用了乘法权重更新(MWU)机制,这是专家系统中的一种标准方法。使用MWU时,每个基检测器都被初始化一个起始权重。在每一轮结束时,每个基检测器的新权重是其旧权重与学习率乘以该轮输出的标准化异常分数的负指数之积。

所有基检测器以这种方式更新后,它们的权重被归一化,使其总和为1。通过这个过程,持续输出较大分数的检测器将开始获得较低的权重。我们工作的技术洞察是将这一最初为监督环境提出的经典MWU思想,应用于异常检测的无监督环境。

在模型评估期间,我们能够看到算法根据输入数据重新为基检测器分配权重。在一个数据集上,SEAD为两个不同的模型分配了高权重,这两个模型在涉及真正异常数据的测试阶段都持续识别出异常。然而,在该阶段之后,在干净数据上,其中一个模型继续触发警报,SEAD迅速降低了它的权重。

为了进一步研究SEAD适当加权模型的能力,我们在集成中的13个模型之外,增加了13个仅随机生成分数的额外算法。在我们的测试集上,SEAD的准确率仅下降了0.88%,这表明我们的更新算法在快速剔除不可靠模型方面做得很好。

计算效率

像SEAD这样的集成方法的一个缺点是同时运行多个模型会产生计算开销。为了解决这个问题,我们试验了一种名为SEAD++的方法,该方法以与其权重成比例的概率随机抽样集成模型的一个子集。相对于原始SEAD,这带来了大约两倍的加速,而准确性损失极小。因此,在计算资源有限的使用场景中,SEAD++是一个有前景的替代方案。

SEAD代表了流数据异常检测领域的重大进步。通过实时智能地从候选池中选择性能最佳的模型,它确保了可靠且高效的异常检测。其无监督、在线的特性,结合其适应性,使其成为适用于多种应用的宝贵工具,为流环境中的异常检测树立了新标准。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.jsqmd.com/news/73029/

相关文章:

  • [ROI 2017] 前往大都会 (Day 1)
  • FreeRTOS任务卡死在prvTaskExitError
  • 2025年12月北京GEO服务商推荐 - 品牌2025
  • 2025 最新广州瑜伽馆TOP5 评测!优质瑜伽培训机构年度榜单发布,品牌沉淀+国际认证,传统瑜伽赋能身心平衡新生态 - 全局中转站
  • 《程序员修炼之道:从小工到专家》笔记8
  • 记录生活系统|记录美好|健康管理|基于java+Android+微信小程序的记录生活系统设计与构建(源码+数据库+文档)
  • 2025年12月GEO服务商参考指南:聚焦豆包、DeepSeek,布局AI时代内容触达 - 品牌2025
  • day4 Java基础4
  • 2025最新广州瑜伽团课机构TOP5评测!广州地区优质瑜伽馆年度盘点,权威认证+资深师资+多元课程榜单发布,引领都市身心疗愈新方式 - 全局中转站
  • 从抽象符号到现实应用:图论的奥秘 - 教程
  • 深入解析:动作识别3——mmpose和mmaction2
  • 数论基础学习笔记
  • 红外线桥切机哪家好?2025优质桥切机厂家推荐 - 栗子测评
  • [最优化技术] 3-1 黄金分割法
  • 2025采购指南:PE 自封袋厂家实力榜,江西透明自封袋哪家 - 栗子测评
  • 表格数据滚到底部-自动加载更多
  • 水刀切割机哪家好?2025热门切石机厂家权威排名汇总 - 栗子测评
  • 水刀切割机哪家好?2025热门切石机厂家权威排名汇总 - 栗子测评
  • AI狂飙时代:我们该学什么,未来在哪?
  • 石材抛光机厂家哪家好?2025热门石材切割机厂家口碑推荐 - 栗子测评
  • 矿山机哪家好?2025靠谱矿山开采设备厂家排名推荐 - 栗子测评
  • TVS 保护管工厂哪家好?这些优质厂商值得关注 - 栗子测评
  • 深圳视频推广哪家好?当然选深圳市万创科技有限公司 - 栗子测评
  • 2025温州ip打造推荐:这8家公司助力品牌形象升级 - 栗子测评
  • 电感工厂哪家好?这 8 家优质厂商为电子设备保驾护航 - 栗子测评
  • 深圳全网营销哪家好?首选深圳市万创科技有限公司 - 栗子测评
  • AEO公司哪家好? - 栗子测评
  • CF1065E Side Transmutations - crazy-
  • 2025线上少儿编程哪个机构好?高口碑线上少儿编程培训推荐 - 栗子测评
  • 深圳建站公司哪家好?推荐深圳市万创科技有限公司 - 栗子测评