当前位置: 首页 > news >正文

1.1.1 AI->GB T 42755-2023数据集标注标准:GB T 42755-2023《人工智能 面向机器学习的数据标注规程》

GB/T 42755-2023《人工智能 面向机器学习的数据标注规程》是我国首个数据标注领域的国家标准,于 2023 年 5 月 23 日发布,2023 年 12 月 1 日正式实施。该标准为 AI 数据标注提供了全流程规范,核心是保障标注质量、安全与一致性,适用于文本、图像、音频、视频、点云等多类型数据标注

标准核心框架(三大阶段)

标准将数据标注划分为前期准备、任务执行、结果输出三大核心阶段,覆盖从需求到交付的完整闭环

前期准备阶段

  1. 标注任务定义

    • 需形成书面标注任务说明,明确标注目标、对象、类别、属性、方法、正反示例、验收规则
    • 数据需先预处理:清洗、去重、脱敏、格式统一
  2. 标注人员要求

    • 分级:普通标注员、专业标注员、领域专家
    • 必须经培训 + 考核合格上岗,定期复训
  3. 标注环境要求

    • 安全:双因素认证、操作录屏审计、数据存储与标注域逻辑隔离
    • 工具:支持多模态数据、任务分配、进度跟踪、质量检查、版本控制、标准格式导出

任务执行阶段

  1. 过程控制

    • 分工明确:数据需求方、标注管理方、标注方三方权责清晰
    • 流程可追溯:全环节日志记录,防止篡改
    • 流式质检:抽检率≥20%,高危 / 敏感样本100% 复核
  2. 质量保证(核心指标)

    • 一致性:多标注者 Kappa 系数≥0.85;图像标注 IOU≥0.90
    • 准确性:分类标注准确率≥95%;关键点定位误差≤3 像素
    • 数据均衡:少数类样本≥5%,特征覆盖熵值≥0.7
    • 完整性:必填标注项无遗漏,元数据完整
  3. 管理机制

    • 建立冲突解决、异常上报、进度监控、成本控制机制

结果输出阶段

  1. 内部质检

    • 二级 / 三级质检:初检→复检→抽检,不合格数据返工
    • 出具质量报告:准确率、一致性、覆盖率、问题统计
  2. 数据交付

    • 按约定格式(JSON/XML/CSV 等)交付
    • 数据说明书:来源、标注方法、质量评估、版本、版权说明
  3. 后期维护

    • 版本管理:记录修改历史,支持回溯
    • 反馈优化:根据模型应用效果迭代标注规则

二、不同数据类型的专项要求

  • 文本标注

    • 分类:标签体系清晰、互斥无歧义
    • 实体 / 情感:边界准确、情感极性一致,一致性≥90%
  • 图像标注

    • 分类:单图多标签准确,漏标率<1%
    • 检测 / 分割:边界框 IOU≥0.9;实例分割 Mask IoU≥0.85
    • 关键点:定位误差≤3 像素
  • 视频标注

    • 关键帧 / 逐帧标注,目标 ID 追踪稳定,切换率≤5%
  • 点云标注

    • 3D 框 IOU≥0.8(16 线激光雷达)
  • 音频标注

    • 转写准确率≥98%,说话人分离、时间戳精确

安全与合规(安全护城河)

  • 敏感数据保护

    • PII(个人可识别信息)自动脱敏,召回率≥99%
    • 严禁未脱敏标注人脸、指纹等生物特征
  • 内容安全

    • 政治有害 / 色情 / 暴力 / 歧视内容拦截率 99.97%,漏标率<0.05%
  • 版权合规

    • 确保原始数据授权合法,标注成果权属清晰

标准意义与价值

  1. 统一规范:解决标注行业 “无标可依”、质量参差不齐问题
  2. 质量提升:量化指标确保数据集高一致、高准确、高均衡
  3. 安全可控:强化数据安全、隐私保护与内容合规
  4. 产业协同:便于供需双方对接、降低沟通成本、支撑 AI 产业健康发展
http://www.jsqmd.com/news/529922/

相关文章:

  • dvwa靶场通关反射型xss
  • 5个高效技巧:用WindowsCleaner实现系统性能飞跃
  • 2026年3月佛山全息投影与沉浸式体验厂家最新推荐:全息餐厅、数字展厅、裸眼3D片源、文旅光影、互动投影厂家选择指南 - 海棠依旧大
  • OpenClaw故障自愈方案:QwQ-32B监控脚本异常并自动恢复
  • 店小秘ERP是免费的吗?有哪些功能可以用? - 速递信息
  • 3步解决学术引用难题:GB/T 7714国家标准样式全攻略
  • 零基础玩转AutoGLM-Phone-9B:5分钟搞定移动端多模态AI部署
  • 从传统运维到智能管控:风力发电场借西门子 S7-200PLC、S7-1200PLC 以太网通讯实现升级
  • Cadence OrCAD原理图封装实战:用Excel快速处理88管脚芯片(附AD9135案例)
  • Android10开机向导定制实战:从零修改wizard_script.xml到调试技巧
  • wotiolora:面向WoT的轻量级LoRaWAN终端协议栈实现
  • 终极指南:如何在Anki中轻松添加AI语音学习助手
  • AssetStudio技术指南:从资源解析到流程自动化的进阶之路
  • Qwen-Ranker Pro入门必看:Query+Document深度比对实操指南
  • 预售易货实操拆解:中小商家轻成本拓客,合规落地不踩坑
  • Topit:3步实现macOS窗口高效置顶,告别遮挡烦恼
  • AI编程终端三剑客实战指南:Claude Code、Codex CLI、Gemini CLI 场景化选型与避坑
  • 告别遮挡!在Cesium 1.107+中管理多个Billboard图标的3种实战方案(含性能对比)
  • 突破时间序列稀疏性瓶颈:Time-Series-Library数据增广技术的革新方案
  • 罗兰艺境B2B制造业-集成电路GEO白皮书:让中国隐形冠军拥有自己的AI信任资产 - 罗兰艺境GEO
  • CTFshow-pwn入门-格式化字符串漏洞实战:从任意读写到GOT覆写
  • 心电算法验证的基石:主流心电数据库全景解析与应用指南
  • 3种方法实现跨设备控制 开源键鼠共享工具Lan Mouse全攻略
  • 2026年信息化一网通办平台word,目前一网通办平台推荐分析关键技术和产品信息全方位测评 - 品牌推荐师
  • 告别路径烦恼!手把手教你配置VSCode的jsconfig.json实现完美@跳转
  • 嵌入式天气客户端库设计与API迁移实践
  • 深度学习:从线性模型到深度神经网络的演进概述
  • 3. GPIO
  • ENVI5.3实战:如何用landsat_gapfill工具一键去除Landsat影像的讨厌条纹(附工具下载)
  • CoPaw模型服务监控与告警体系搭建教程