当前位置: 首页 > news >正文

线性方法在知识发现中的持久价值

KDD: 线性方法仍有一席之地

某机构学者Christos Faloutsos表示,在知识发现领域,“我们想为特定应用选择合适的工具”。

国际计算机协会知识发现与数据挖掘会议(KDD)将于下周开幕,这距Christos Faloutsos(某机构学者、卡内基梅隆大学计算机科学教授)首次参加该会议已有23年。Faloutsos在2010年荣获该会议创新奖。今年,他是被会议接收的三篇某机构论文的共同作者。

自1997年Faloutsos首次参加KDD以来,情况发生了巨大变化。“当时的热点是关联规则:买面包的人也买牛奶——或者纸尿裤和啤酒,这是一个悖论,”Faloutsos说。“后来,热点转向了支持向量机。接着是数据科学、大数据,如何将机器学习与Hadoop结合——在2005年、2010年,Hadoop是首选工具。当然,过去几年是深度学习和神经网络。技术变化很大,但目标始终如一:如何在海量数据中发现模式。”

在计算机科学的某些子领域,深度学习革命意味着领域专业知识不如以往重要:系统设计者可以相信神经网络本身能学会输入数据的哪些特征与计算任务相关。但Faloutsos表示,在知识发现领域,情况并非总是如此。

“如果有大量样本,这或许是可能的,”Faloutsos说。“如果你有十亿张狗的照片和十亿张猫的照片,那么最终深度学习网络能学会区分。但如果样本很少,我们仍需非常谨慎地选择特征。客户‘史密斯’会买鞋吗?或者病人‘约翰逊’会患上某种疾病吗?对于这类情况,我们需要考虑应该提供哪些特征:是仅提供史密斯前几次消费的金额?应该使用金额的对数吗?是否需要对金额进行归一化处理,使其均值为零或单位标准差?类似地,对于病人约翰逊:哪些是适合该病人的特征?使用身高、体重还是血压?特征提取是困难的部分。”

事实上,在他自己的工作中,Faloutsos很少使用神经网络。他的大部分研究都集中在传统的——通常是线性的——知识发现方法上。

“深度网络总是能表现得更好,因为它将线性方法作为一个特例包含在内,”Faloutsos说。也就是说,任何线性方法都可以编码到神经网络的参数中;因此,如果神经网络学会了利用非线性,那很可能是因为非线性提高了性能。

可解释性与速度

尽管如此,线性方法有两个优势,在某些情况下可以弥补可能存在的精度损失:可解释性速度。这两点对于某机构的许多知识发现应用也至关重要。

“对于某些应用,可解释性是强制性的,”Faloutsos说。“你不能说,‘我要做开胸手术,因为神经网络是这么说的。’你必须有一个非常充分的理由。”

Faloutsos的一个研究项目是从线性知识发现系统入手,然后逐步加入非线性,这应能使非线性更易于解释。“如果你的十个深度学习单元是线性的,两个是非线性的,你就能弄清楚这些非线性单元的作用,”Faloutsos解释道。“例如,如果你在进行软件产品销售预测,新版本发布时可能会出现一个不连续点。”

考虑到某机构商店的每日交易量和某机构产品目录中的商品数量,高效的计算也至关重要。例如,Faloutsos在某机构的一个项目是欺诈检测,这需要快速分析海量交易以发现异常。

“如果你有一个二分图,即人们购买产品,并且有20个人购买了相同的40种产品,那就很可疑,”Faloutsos说。“没错,每个在某机构上购物的人或多或少都会买相同的产品。但你绝不会恰好和另外20个人购买完全相同的40件商品。我们有很多算法可以识别这种情况,并且非常成功。”

“线性方法非常容易训练,”Faloutsos解释道。“它们是高度优化的:对于SVD(奇异值分解,线性知识发现方法中的一项核心技术),有无数篇论文专门研究如何进行快速SVD、稠密SVD、稀疏矩阵SVD,应有尽有。由于存在针对线性方法的超级算法,速度优势巨大。”

Faloutsos说,他希望他的学生们能理解的是,“我们想为给定的应用选择合适的工具。”

“当一种技术在三到四个不同领域都有效时,它就是你的工具箱中一个很棒的工具,”他说。“这是我判断一项非常好的技术并会推荐给我学生的经验法则。如果我发现一种方法能处理文本、图像、语音,那它就是好方法。神经网络适用于所有这些场景;这就是它们取得巨大成功的原因。但同样的论点也适用于SVD、幂律和分形。”FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

http://www.jsqmd.com/news/407766/

相关文章:

  • HTML5 自定义属性 data-*:别再把数据塞进 class 里了!
  • 2026年肛肠厂家权威推荐榜:成都肛肠医院哪个比较好/成都肛肠医院排名/成都肛肠医院的挂号/选择指南 - 优质品牌商家
  • 2026 年绩效考核工具实操:目标分解全流程攻
  • Jetson T4000与JetPack 7.1加速边缘AI推理
  • 深度学习算法在工业异常检测应用的注意事项
  • ClawHub迷之封杀操作,逼出首个Agent全球进化网络
  • 定稿前必看!8个降AI率平台测评对比,专科生必备神器
  • 单日暴跌13%!IBM栽在了Anthropic的AI代码工具上
  • 用实力说话!降AIGC平台 千笔·专业降AIGC智能体 VS 云笔AI,专科生专属首选
  • 如何绕过Cloudflare WAF发现反射型XSS漏洞
  • 改稿速度拉满 8个AI论文网站测评:本科生毕业论文+学术写作全攻略
  • 使用Social-Engineer Toolkit实施鱼叉式钓鱼攻击:TryHackMe 2025圣诞挑战赛第2天 WriteUp
  • 好写作AI | 还在手动排版?智能生成标准格式,让你告别格式地狱!
  • 我的第一篇 MetaWeblog API 测试文章
  • 好写作AI | 资料太多看不完?一键提炼核心,效率翻倍!
  • 好写作AI | 从3小时到10分钟:我是如何用“好写作”搞定小组作业的?
  • 2026年陶瓷坛厂家推荐:四川酒坛批发厂家/四川酒缸定制厂/四川陶瓷缸厂家/四川陶瓷酒缸批发厂家/选择指南 - 优质品牌商家
  • FEP胶带加工厂怎么选?合作案例多、环保好的有哪些 - 工业推荐榜
  • 2026年振动盘供应商靠谱推荐,性价比与质量双优企业揭秘 - myqiye
  • 2026年北京靠谱的北大青鸟海淀校区排名,品牌推荐哪家值得选 - mypinpai
  • 2026节能空压机厂推荐,德蒙集团价格合理进入年度排名 - 工业品网
  • 深聊华宇复合材料的技术团队实力、定制服务及客户评价 - 工业设备
  • 嘉兴地区节能空压机制造商哪家好,多维度对比告诉你 - 工业品牌热点
  • 2026年北京诚信的住建部八大员培训企业推荐,十大厂家有哪些 - 工业品牌热点
  • BEC中级写作模板 - daydayup-
  • Keep alive 分析
  • 计算机毕业设计springboot益智类娱乐活动在线组团平台 智慧娱乐社交聚合系统——益智活动在线协作平台 脑力竞技互动社区——趣味益智游戏组队服务系统
  • 2026年不孕公司权威推荐:妇科医院/妇科检查/妇科治疗/妇科炎症治疗/妇科线上问诊/治疗不孕/选择指南 - 优质品牌商家
  • 从此告别拖延,AI论文软件千笔·专业学术智能体 VS 灵感ai,专科生写作新选择!
  • 好写作AI | 告别熬夜写稿!大学生必备的AI智能写作提速秘籍