当前位置: 首页 > news >正文

SageMaker算法如何推动机器学习民主化

SageMaker算法如何推动机器学习民主化

系统支持高效更新、并行化及稳定扩展。

某机构SageMaker是一项云服务,让客户能够快速、轻松地构建机器学习模型并部署在云端。它包含一套标准的机器学习算法,如k-means聚类、主成分分析、神经主题建模和时间序列预测。

在上周举行的数据系统领域重要会议SIGMOD/PODS上,我与同事们描述了支撑这些算法的系统设计。

基于云的机器学习模型运行的上下文环境很少是静态的。随着新的训练数据可用或出现新的用例,模型通常需要更新;有些模型甚至每小时都需要更新。

然而,仅在新数据上重新训练模型可能会侵蚀模型先前获得的知识。在新旧数据的组合上重新训练模型可以避免这个问题,但这可能非常耗时。

SageMaker的系统设计有助于解决这一僵局。它还使得模型训练的并行化更易实现,并且能更高效地优化模型的“超参数”——即模型的结构性特征,其变化会影响性能。

例如,在神经网络中,超参数包括网络层数、每层节点数以及网络的学习率等特征。模型超参数的最佳设置因任务而异,而为特定任务调整超参数通常是一个繁琐的试错过程。

我们的系统设计通过区分模型和模型状态来解决这些问题。在此上下文中,状态是模型迄今所见数据的一个执行摘要。

以一个简单例子说明,假设一个模型正在计算输入数字流的运行平均值。模型的状态将包括它所见所有数字的总和以及数量。如果模型存储此状态,那么当新一周有新的数字流到来时,它只需继续递增这两个值,无需重新添加已见过的数字。

当然,大多数机器学习模型执行的任务比简单平均复杂得多,状态必须捕获的信息也因任务而异:例如,它可以包括从所见数据中提取的代表性样本。使用SageMaker,我们为支持的每种机器学习算法确定了独立的状态变量。

跟踪状态的优势之一是模型稳定性。状态的大小是固定的:模型可能看到越来越多的数据,但状态对数据的摘要始终占用相同的内存空间。

这意味着模型训练的时间和系统资源成本与新训练数据量成线性关系。如果训练时间呈超线性增长,足够大量的数据可能导致训练超时而失败。

平均的例子还说明了系统的另一个方面:它需要在流式数据上运行。也就是说,每个训练样本可能只被看到一次,并且样本序列可能在任意点中断。在任何这样的中断点,它都应该能综合所学内容,生成一个有效且最新的模型。

分布式状态

我们的系统支持这种学习范式。但它也能在标准的机器学习设置中完美运行,即将训练样本分成固定大小的批次,模型多次遍历同一训练集,直到其性能停止提升。

当系统并行训练模型时,每个并行处理器会收到自己的一份状态副本,并在本地更新。为了同步本地存储的状态更新,我们使用了一个名为参数服务器的开源框架。

同步调度同样是算法特定的。例如,使用k-means聚类和主成分分析时,给定的处理器在完成所有计算之前,无需向参数服务器报告其状态更新。而对于神经网络这种训练涉及寻找全局最优解的任务,则需要更频繁地进行同步。

正如状态的数据摘要能够高效地重新训练模型一样,它们也能高效地估算不同超参数设置对模型性能的影响。这就是SageMaker能够自动化超参数调优的原因。

在论文中,我们报告了将系统与相同机器学习技术的一些标准实现进行比较的实验结果。

我们发现,平均而言,我们的方法在资源效率上要高得多。例如,对于线性学习器(一种学习线性模型如线性回归和多类分类的算法),我们的方法使并行化效率提高了八倍。

而对于用于数据点聚类的k-means聚类技术,我们的方法使训练效率提高了近十倍。实际上,在我们的实验中,大于100GB的数据集导致现有实现崩溃。FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

http://www.jsqmd.com/news/435443/

相关文章:

  • H2O-3反序列化漏洞分析(CVE-2025-6507CVE-2025-6544)
  • 受认可的美国海外仓靠谱不,收费标准是多少钱? - mypinpai
  • 真心不骗你! 自考必备的降AI率软件 千笔·专业降AIGC智能体 VS 学术猹
  • 日通机械基本信息有哪些,好用吗,在江苏地区口碑怎样? - 工业推荐榜
  • 2026中国的染发膏有比外国好的品牌吗?国货创新实力解析 - 品牌排行榜
  • ERROR 1820 (HY000): You must reset your password using ALTER USER statement‌
  • 聊聊2026年好用的劳动纠纷律师,证据精通文书起草维权有保障 - 工业品网
  • git批量删除本地多余分支
  • 深圳选到俄罗斯物流方案,易斯拉国际物流靠谱不? - 工业品牌热点
  • 如何查看文档真实修改时间?绕过表面显示的方法
  • 性价比高的劳动纠纷律师推荐,能处理索赔案件的有吗? - myqiye
  • 京东e卡回收热门平台流程复盘 - 京回收小程序
  • 第二届航空航天工程与材料技术国际会议(AEMT 2026)
  • 2026年江苏全自动缓冲纸袋机十大厂家排名,哪家值得选 - mypinpai
  • 2026三边封拉链袋评测:优质厂商推荐指南,三边封拉链袋/纹路袋/自立拉链袋/中封袋/包装袋,三边封拉链袋优质厂家选哪家 - 品牌推荐师
  • 2026年剖析江苏全自动多功能覆膜机,靠谱的供应商怎么选择 - 工业设备
  • 狗狗掉毛怎么改善,杭州鼎伴畅敏33好用吗 - 工业品牌热点
  • 总结秦皇岛不错的巨量推广公司,哪家性价比更高? - 工业推荐榜
  • KingbaseES PLSQL异常处理深度解析:机制、实践与优化
  • 我用Cursor开发了3个月,整理出这套提效4倍的工作流
  • 讲讲东宇电气好不好,设备与服务是否值得选择 - 工业品网
  • 2026江苏日通机械客户评价、技术创新与广告宣传效果,哪个更值得选 - myqiye
  • 参考文献崩了?AI论文工具 千笔写作工具 VS 文途AI,MBA专属神器!
  • 2026年气泡纸压花机选购指南,生产厂哪家更值得选揭秘 - mypinpai
  • 聊聊2026年江苏靠谱的全自动多功能覆膜机优质生产商有哪些 - mypinpai
  • 好用的头皮精华排行:清爽不油腻,吸收快是关键 - 博客万
  • 2026年江苏好用的全自动多功能覆膜机推荐,这些品牌值得关注 - 工业设备
  • 2026年商用厨房设备与不锈钢橱柜厂家推荐排行榜:专业定制集成式排烟罩燃气灶,餐饮酒店食堂高效解决方案精选 - 品牌企业推荐师(官方)
  • 2026年il-1β elisa试剂盒:优质生产厂家大揭秘,大鼠ELISA,il-1β elisa试剂盒厂商联系方式 - 品牌推荐师
  • 2026年气泡纸压花机费用全了解,江苏高口碑品牌与生产厂大盘点 - 工业设备