当前位置: 首页 > news >正文

评估AI系统时如何减少标注工作

商业机器学习系统在代表真实世界的数据上进行训练。但世界在不断变化,已部署的机器学习系统需要定期重新评估,以确保其性能没有下降。

评估一个已部署的AI系统意味着人工标注该系统已分类的数据,以确定这些分类是否准确。但标注是劳动密集型的,因此需要尽量减少评估系统性能所需的样本数量。

许多商业机器学习系统实际上是二元分类器的集成;每个分类器对输入是否属于特定类别进行“投票”,然后汇总投票以产生最终决策。

在一篇于欧洲机器学习会议上发表的论文中,我们展示了如何通过利用用于评估单个组件的样本集之间的重叠,来减少评估二元分类器集成所需的随机样本数量。

例如,假设一个集成有三个分类器,我们需要10个样本来评估这三个分类器的性能。评估该集成需要40个样本——每个分类器10个,整个集成10个。如果这40个样本中有10个是重复的,我们就可以只使用30个标注。我们的论文就是基于这种直觉。

在使用真实数据的实验中,我们的方法在保持评估准确性的同时,将评估集成所需的样本数量减少了超过89%。

我们还使用模拟数据进行了实验,改变了个体分类器样本集之间的重叠程度。在这些实验中,平均节省了33%的样本。

最后,在论文中,我们证明了我们的抽样过程相对于随机抽样,不会给结果样本集引入任何偏差。

共同点

直观地说,为集成的各个组件随机选择的样本不可避免地会包含一些重复。大多数对评估一个模型有用的样本也应该对评估其他模型有用。目标就是添加刚好足够多的额外样本来评估所有模型。

我们首先为整个集成选择一个样本集,我们称之为“父模型”;而集成的单个模型相应地称为“子模型”。在找到足够评估父模型的样本集后,我们扩展它以包含第一个子模型,然后重复该过程,直到样本集覆盖所有子模型。

我们的通用方法适用于评估集成性能的任何标准,但在论文中,我们以精确率(即分类器正确识别的真阳性百分比)作为运行示例。

在此图中,被父模型判断为阳性的输入集(右圆,AP)与被子模型判断为阳性的输入集(左圆,AC)相交。AP的随机样本(橙色曲线,SP)与AC的交集(橙色阴影区域)代表S+,即来自父模型阳性集且被子模型同样分类为阳性的样本。绿色阴影区域代表S-,即被子模型分类为阳性但未被父模型分类为阳性的样本。散布的x代表Sremain,即为了获得足够样本以精确估计子模型精确率所需的、被子模型分类为阳性的额外输入样本。

我们从父模型判断为目标类别的总输入集和子模型判断为阳性的总输入集开始。这两个集合通常有相当大的重叠;例如,在一个由三个分类器构成的多数投票集成中,只要有两个组件(子模型)判定为阳性,集成(父模型)就会将输入分类为阳性。

我们从父模型的集合中选取足够多的随机样本来评估父模型。然后,我们找到该样本集与子模型所有阳性分类总集的交集(上图中的S+)。这成为我们用于评估子模型的基线样本集。

接下来,我们随机抽取被子模型分类为阳性但父模型未分类为阳性的输入样本(上图中的S-)。该样本的大小与基线样本集大小的比率,应与被子模型(而非父模型)标记为阳性的输入数量与两者都标记为阳性的输入数量的比率相同。

当我们将这些样本添加到基线样本集时,我们得到的组合样本集可能不够大,无法准确估计精确率。如果需要,我们会从被子模型分类为阳性的输入中选择更多样本。这些样本也可能被父模型分类为阳性(上图中的Sremain)。

回想一下,我们首先从子模型和父模型意见一致的集合中抽取样本,然后从它们意见不一致的集合中抽取。这意味着我们构建的样本集并非真正随机的,因此下一步是将组合集中的样本混合在一起。

重新洗牌还是重新抽样?

我们尝试了两种不同的混合方法。一种是将组合集中的所有样本简单地重新洗牌。另一种是从组合集中随机抽取样本,并将它们添加到一个新的混合集中,直到混合集与组合集大小相同。在这两种方法中,最终结果都是,当我们从样本中挑选任何元素时,我们都不知道它来自父模型和子模型意见一致的集合还是意见不一致的集合。

我们实验中可视化了当改变父模型和子模型判断之间重叠量时,我们的方法带来的平均样本节省量。

在我们的实验中,我们发现当使用重新洗牌来产生混合样本集和使用重新抽样时,算法的结果之间存在轻微的权衡。因为重新抽样在混合集中引入了一些冗余,它比重新洗牌需要更少的样本,从而相比随机抽样增加了样本量的节省。

然而,与此同时,它略微降低了精确率估计的准确性。通过重新洗牌,我们的算法平均在三个测试数据集上略优于随机抽样,而通过重新抽样,则略低于随机抽样。

总体而言,我们开发的抽样程序减少了所需的样本量。当然,节省的量取决于父模型和子模型判断之间的重叠程度。重叠越大,样本节省越多。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.jsqmd.com/news/83509/

相关文章:

  • 香港就加密货币税收规则启动公众咨询
  • 为什么你的视觉AI项目总是耗时又低效?Florence-2-large-ft一站式解决方案
  • springboot公务员应届生复习备考平台_tm7d928l
  • C51_红外通信
  • Flutter 2025 安全加固指南:从代码混淆到数据加密,构建可信、合规、防逆向的移动应用安全体系
  • 5大优势解析:为什么art-design-pro成为现代后台管理的首选方案
  • 菜市场价格对比工具,输入蔬菜/肉类名称,显示周边三个菜市场的实时价格及距离,推荐性价比最高的购买地点。
  • 基于Dify/n8n/Coze的实时交友聊天系统解决方案V3
  • Flutter 2025 自动化测试全栈指南:从单元测试到 E2E,构建坚如磐石的高质量交付体系
  • Profiling 专项
  • 旧物改造灵感库,核心功能,分享旧物改造案例,如塑料瓶做花盆,旧衣服改围裙等,支持搜索改造类型,上传自己的作品,应用场景,喜欢动手的中老年人找改造灵感,废物利用省钱又环保。
  • 如何全面评估大语言模型:从测试基准到性能优化的完整指南
  • springboot公司人力资源管理系统_nvj0q68d-
  • Go 语言
  • 儿童护眼灯什么牌子的好?黑马顶流护眼灯揭秘,宝妈圈都在夸!
  • 如何完成一个方便简单的Arduino共阳极数码管实验(从0~9依次循环亮起)
  • **方言AI配音工具2025推荐,解锁多场景语音内容创作新体
  • **免费游戏角色AI配音软件2025推荐,适配独立开发者与小
  • 10分钟搞定HunyuanVideo部署:从零开始生成你的第一个AI视频
  • 基于php的幸运舞蹈工作室管理系统设计与实现(源码+lw+部署文档+讲解等)
  • 从MinIO迁移实战指南:RustFS的平滑迁移步骤与风险控制
  • AI进化社MJStable diffusion绘画课
  • 初创公司缺法务、缺设计、缺运营,如何靠AI提高工作效率?
  • 基于php的微信小程序的学习交流平台系统(源码+lw+部署文档+讲解等)
  • Lazy.js实战指南:5个让数据处理性能翻倍的业务场景
  • thinkcmf改存储CloudflareR2
  • 告别“创意枯竭周期”:华为云Flexus AI智能体如何重构传统企业营销内容生产力
  • springboot共享自习室管理系统_2bm6j0gn-
  • 柠檬 软件测试之python全栈自动化测试工程师第25期
  • 从“我被拒了”到“我学到了”——软件测试面试的精准复盘法则