当前位置: 首页 > news >正文

在线网络中异常变化的实时检测技术

乔治·米海迪斯:如何识别在线网络中的重要变化

某机构学者探讨异常检测研究的演变。

作者:玛丽安娜·莱尼亚罗
2022年2月23日
5分钟阅读

作为佛罗里达大学信息学研究所主任,同时也是供应链优化技术团队的某机构学者,乔治·米海迪斯领导着一个由数据科学家组成的多元化团队,成员具备工程、统计学、应用数学及其他科学背景。他指出,这种背景的多样性在数据科学中至关重要。

乔治·米海迪斯是佛罗里达大学信息学研究所主任,以及供应链优化技术团队的某机构学者。

“除了统计学,数据科学家还需要了解许多其他学科,例如编程、算法、优化,当然还需要特定的领域知识,因为数据科学不是凭空进行的。”米海迪斯接受的是应用数学和统计学的训练,其博士论文聚焦于优化问题及其在统计问题中的应用。博士后阶段的研究方向是运筹学,这让他接触到不同类型的问题。“其中一些问题会出现在某机构的供应链中,例如,如何调度机器上的作业,或如何规划网络中的流量路由等等。”

大约17年间,米海迪斯是密歇根大学统计学的教职人员,并在电子工程系有联合任命。“我将我的统计学训练与我对工程类问题的兴趣结合了起来。”

数据整合

自那以后,他在佛罗里达大学的研究议程一直具有很强的理论成分,但他对实际应用仍然非常感兴趣。他目前的兴趣点之一是数据整合及其众多潜在用途。例如,在疾病研究中,既有来自患者样本的大量分子级数据,同时也有患者的临床记录和人口统计学信息。

“如何创建模型,通过整合所有这些不同的数据源来识别关键驱动因素,例如疾病进展的驱动因素?”这是推动米海迪斯工作的核心问题之一。利用这些模型,他试图为预后或诊断目的提供见解,同时也为了解导致该疾病的生物学机制。

米海迪斯研究的另一个重要组成部分与被称为“异常检测”的问题有关。“这是一个已有60多年历史的老问题,”他说。它在很大程度上起源于制造业,当时人们希望发现制造过程中的缺陷并加以修复。随着技术的发展,许多其他领域也出现了类似的问题。

这正是米海迪斯与其同事——RelationalAI的高级数据科学家侯赛因·凯沙瓦兹以及波士顿大学统计学教授伊夫·阿查德——共同发表的论文《高维高斯图模型中的序贯变点检测》所涉及的广泛主题。

米海迪斯指出,随着制造过程变得更加复杂,监控更多的指标变得必要。

“这种复杂性的一个典型例子是半导体制造,你需要监控数百个细微的环节。”在更现代的应用中,下一步是监控网络。

“你不仅是在监控大量事物。现在这些事物是相互连接的,你需要理解这个网络作为一个整体,在某个时间点其结构如何变化,”米海迪斯解释道。“并且你是以在线方式进行这项工作的,因为这个过程是持续进行的。你不断观察网络,并试图尽快识别变化。”

除了开发检测技术,研究人员还必须证明其技术对特定类型的变化足够敏感,并确定其检测速度是否足够快。这正是米海迪斯及其同事在论文中试图解决的在线领域挑战。该论文“介绍了一种新颖、可扩展的在线算法,用于检测未知数量的突变”。

在论文中,作者展示了在股票市场数据上的一个应用,其中网络由股票价格变动构成。“我们展示了网络是如何变化的,例如,在2008年金融危机期间,以及2012年欧债危机如何影响股票市场等等。”米海迪斯指出,这些技术尤其适用于那些可观测元素之间存在依赖关系,但依赖关系的性质未知的问题。

“对于股票,无论它们是同向还是反向变动,这些变动——或不变动——构成了网络结构。这正是我们通过这些图模型所捕捉到的。”

在供应链优化技术组织内部,米海迪斯表示有机会以前所未有的规模应对具有挑战性的问题。“这些问题要复杂得多,因为它们不像学术界那样界限分明。”在本次访谈中,他讨论了自己在异常检测方面的研究及其潜在应用。

问:您的论文提到了高维分段稀疏图模型。这具体指什么,有哪些应用?

答:图模型是一种特定的统计模型,旨在捕捉节点上所测量事物之间的统计依赖关系。在股市的例子中,你关注的是某只股票的收益率。这是每个节点上随时间变化的测量值。你需要理解,例如,一只科技股的收益率是否与另一只科技股的收益率相关。这就是图模型试图捕捉的——统计依赖性。

下一步是我们所说的“高维”。本质上,这意味着网络中节点(或变量)的数量相对于你拥有的观测数量变得非常大。你可能观测周期很短,但节点数量却很高。我们称之为高维统计学的领域在15到20年前成为一个重要的研究领域,并拥有大量应用。原因是,在更经典的统计学中,我们总是假设样本量远大于变量数量。在高维情境下,关系反转了,变量远多于观测样本,这带来了一系列技术挑战,甚至到了问题都无法求解的地步。

因此,需要一些额外的假设,这就引入了另一个重要术语:“稀疏”。这意味着该网络没有太多的连接。如果网络连接非常紧密,那么由于技术原因(数据不足),我们将无法求解问题。所以,你假设这些网络连接不太紧密,以补偿数据量的不足。

最后需要理解的术语是“分段”。“分段”意味着在这一段时间内,网络结构保持不变,然后突然变化为另一种结构。这不是一个渐进的变化——尽管现实中可能存在渐进变化。这很大程度上取决于底层应用。它可能只是为了进行分析而做的简化假设,或者在许多情况下,这正是实际发生的情况。

在神经科学的例子中,如果受试者静止不动地躺在扫描仪中,然后你指示他们——“举起手”或“读这句话”——就会发生一个突变,因为在静止状态后出现了一个新任务。这在股票市场也是可能的,新信息可能引发这些突变。

在许多应用中,确实存在突变,这是使用该模型的恰当场景。在其他一些情况下,变化可能更渐进一些。但我们仍然可以将其视为突变,因为这成为一个有效的工作假设并简化了问题。人们开发的许多这类技术都是良好的工作模型,并非完全精确地反映现实,这在许多科学领域是相当标准的做法。这就是对高维分段稀疏图模型的解释。以上便是所有要素的结合。

问:为什么能够在线检测这些突变非常重要?

答:因为数据是持续采集的,你希望随着事物的演变实时识别这些变化。你可以在离线模式下解决相同的问题,使用相同的高维稀疏分段图模型。这种情况下,区别在于你已预先收集完所有数据,并希望以回顾性的方式探索它们,看看能否发现这类变化。这也是一个值得研究的问题。在这篇文章中我们专注于在线检测,是因为我们已经完成了离线版本的研究,因此很自然地开始探索在线环境下的差异。而且在线环境要更具挑战性,因为你无法预知未来,却不断获取新信息,并试图快速检测出这些变化。一般来说,机器学习和其他领域的在线问题都比离线问题更具挑战性。这对我来说是一个自然的演进,因为我之前已经在离线环境下使用过这些稀疏图模型。

问:这篇论文展示了什么?它对某机构有何适用性?

答:这篇论文确实证明了在线检测这些变化是可能的,所以这是一个积极的信号。同时它也揭示了一个局限性。例如,如果这种连接模式的变化只集中在单个节点上,那么用当前的技术我们无法检测到它。因为这是一个非常局部的变化,只涉及网络中极小的一部分。我们的技术需要等待非常长的时间才能检测到它。从应用的角度看,这使得它失去了价值。这告诉了我们技术的局限性,在某些场景下这些局限性很重要。我们完成了大部分工作,但发现还有遗漏之处。因此,我们需要进一步深入研究。

这些结果对某机构可能具有适用性,因为这类图模型经常出现。到目前为止,我们使用的技术并未考虑连接关系,只是简单地观察单个节点的时间序列及其是否发生变化。显然,鉴于某机构在高度多变的环境中运营,变化是重要的。长期来看,鉴于团队已经在图模型方面有所积累,利用其中一些技术可能会很有价值。潜力是存在的。

总的来说,迄今为止跨多个学科(统计学、信号处理、机器学习、计量经济学)的异常检测工作,主要集中于参数模型,通过一些努力可以从分析上阐明异常检测过程的理论性质,然后通过模拟进行验证。分析性工作为理解这些异常检测程序的性能及其局限性提供了更深刻的见解,并指出了它们在何种情况下表现不佳。随着深度学习模型的所有进步,它们成为了异常检测问题的主要工具。

然而,挑战随之而来:如何理解此类模型的性能极限,而不仅仅是依赖数值实验。这方面的进展可能需要一些时间,但一旦学界取得突破,实践者将能获得更强大的程序。FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

http://www.jsqmd.com/news/378652/

相关文章:

  • 开题卡住了?9个AI论文工具深度测评,本科生毕业论文写作必备
  • 计算机毕业设计之基于SSM车辆维修管理系统的设计与实现
  • 照着用就行:10个降AIGC软件测评,本科生降AI率必备指南
  • 计算机毕业设计之基于springboot的在线投稿系统设计与实现
  • 2026年质量好的流延边料粉碎机/边料粉碎机制造厂家推荐哪家靠谱 - 品牌宣传支持者
  • 山西家长看过来:2026年能入住的学区现房推荐,新楼盘/现房/南都新城/70年大产权住宅/婚房/实景现房,学区房公司推荐 - 品牌推荐师
  • 计算机毕业设计之基于VUE的智能配电设施远程管理系统设计与实现
  • MiniMax M2.5的自我迭代能力:108天迭代3次,内部80%代码AI写的
  • 京东e卡回收流程解析与专业平台选择指南 - 京顺回收
  • 平分汽油问题
  • 山东昊丰密封件有限公司:合作前需知悉的通用建议 - 品牌推荐
  • 一篇搞定全流程AI论文写作软件 千笔·专业论文写作工具 VS 知文AI
  • 2026年热门的麦饭石不粘锅/高档不粘锅公司口碑推荐哪家靠谱 - 品牌宣传支持者
  • 2026年知名的半圆管加工/后壁半圆管直销厂家推荐选哪家(更新) - 品牌宣传支持者
  • 2026年知名的格栅机尼龙耙齿/尼龙耙齿格栅机源头直供参考哪家便宜 - 品牌宣传支持者
  • 效率直接起飞 9个降AIGC平台测评:MBA高效降AI率全攻略
  • 山东昊丰密封件有限公司:供应商信息查询与建议 - 品牌推荐
  • 访客云(FonkaLink):了解访客管理平台核心功能 - 品牌推荐
  • 山东昊丰密封件有限:产品咨询与使用指南 - 品牌推荐
  • 运动医学耗材如何选?这些优质批发商值得关注,泌尿科刨削动力代加工/妇科刨削动力代加工,运动医学企业推荐排行榜 - 品牌推荐师
  • 2026年口碑好的无极绳绞车梭车/无极绳绞车压绳轮组如何选生产商推荐(精选) - 品牌宣传支持者
  • 2026年质量好的聚酯切片吨袋/危化品吨袋工厂采购指南如何选(实用) - 品牌宣传支持者
  • 2026年口碑好的船舶高压直流继电器/电解电镀高压直流继电器直销厂家价格参考怎么选 - 品牌宣传支持者
  • 2026年班车租赁企业口碑排行,轻松找靠谱租赁,代驾租车/中巴租车/汽车租赁/企业租车/商务车租赁,租赁企业口碑推荐 - 品牌推荐师
  • 山东昊丰密封件有限公司:了解企业背景与沟通方式 - 品牌推荐
  • 2026年性价比高的医疗器械纯化水设备源头厂家推荐 - 工业推荐榜
  • 踩过N个坑后总结|5款靠谱AI论文生成工具,免费无套路,新手也能会
  • 访客云联系方式:智能化访客管理平台使用指南 - 品牌推荐
  • 以为是智商税?这款 AI 论文工具,生成 + 降重 + 参考文献一站式搞定
  • 2026年评价高的高速线切割机床/数控线切割机床哪家强生产厂家实力参考 - 品牌宣传支持者