当前位置: 首页 > news >正文

自监督与半监督:AI学习的两种智慧

总结区分

  • 自监督(Self-Supervised Learning)
    没有人工标注,标签是从数据自己构造出来的

  • 半监督(Semi-Supervised Learning)
    一小部分有人工标注 + 大量无标注数据


一、自监督是什么?

核心思想

用数据本身来“出题考自己”

不找人打标签,而是:

  • 从原始数据里人为制造一个任务

  • 这个任务的“正确答案”可以自动得到

模型通过做这些“自问自答”的任务学到有用表示。


典型例子

1.NLP(文本)
  • 任务:预测被遮住的词

我今天去___吃饭→ 正确答案:食堂

BERT、GPT 的预训练都是自监督

2.图像
  • 遮住一块图像,让模型补全

  • 把图像打乱顺序,让模型还原


3.对比学习(现在很火)
  • 同一张图片的不同增强 → 应该“相似”

  • 不同图片 → 应该“不同”

SimCLR、MoCo 都是自监督

二、半监督是什么?

核心思想

用少量标注数据带着大量无标注数据一起学

现实中:

  • 标注很贵

  • 无标注数据很多

那就:

  • 先用少量标注数据“指路”

  • 再把无标注数据也利用起来


典型例子

图像分类
  • 100 张图片有标签(猫 / 狗)

  • 10 万张图片没标签

方法:

  1. 先用有标签数据训练模型

  2. 给无标签数据“猜标签”

  3. 把猜得很准的也当作训练数据(伪标签)


常见方法

  • Pseudo Label(伪标签)

  • Consistency Regularization(一致性约束)

  • FixMatch / Mean Teacher


特点总结

  • 用到了人工标注

  • 提升标注效率

  • 依赖初始标签质量

  • 任务通常是明确的下游任务


三、自监督 vs 半监督(对照表)

维度自监督半监督
是否需要人工标签需要(少量)
标签来源数据自己构造人工 + 模型预测
主要用途预训练 / 表征学习具体任务训练
常见位置训练前训练中
代表模型BERT、SimCLRFixMatch
http://www.jsqmd.com/news/317321/

相关文章:

  • 2026年北京有名的月嫂保姆公司收费标准大揭秘
  • 10/0.4kV变电站电气部分设计
  • 【软考每日一练021】软考真题深度解析:E-R图集成中的结构冲突与实体归并策略
  • 2026年艺术涂料口碑排行,菲玛艺术涂料适合家装的特色亮点
  • 26年测试面试题(含答案!)
  • 聊聊上海可靠的婚介品牌,梅园婚恋费用贵不贵
  • 挖漏洞竟能赚取百万美金?来认识一下这 6 位百万美元白帽黑客
  • 2026年升降平台专业供应商推荐,马尔科口碑出众
  • DDoS攻击全解:类型、原理、实战防御与未来趋势
  • 芳纶纤维板定制费用大概多少钱,哪家更划算?
  • DDoS攻击万字深度解析:从原理到防御,一篇文章讲透
  • 气体渗透仪选购指南:压差法/库仑法品牌排行TOP5与厂家推荐
  • macOS(M4 / Apple Silicon)手动安装 tree(不用 brew / ports)
  • 2026年舟山热门的企业税务法律服务平台推荐
  • YOLO26优化:block优化 | 隐藏状态混合器的状态空间(HSM-SSD) | CVPR2025 EfficientViM
  • 一文掌握 Web 测试:功能、界面、兼容与安全的综合测试指南!
  • Flink运行时组件深度解析:Java工程师的架构设计与实战指南
  • ZX 不锈钢自吸泵厂家选择观察:哪些工况更常用?
  • 2026 程序员就业 10 大方向一览,职业发展前景与转型路径详解
  • 干货!2026 程序员必备 12 个高含金量证书:职场竞争力提升全指南
  • 腾讯年会抽奖送3D打印机,很多人都在羡慕
  • linux系统如何安装搜狗拼音输入法
  • 如何在linux系统上安装微信
  • 无人图书借阅:Java系统源码全攻略
  • 程序员必备:6款软著申请工具实测,最快30分钟出稿
  • 2026 程序员副业 25 种搞钱方法:零基础入门到精通,收藏这篇就够了
  • 好写作AI:当“批判性思维”遇见AI,是学术躺平还是智慧升级?
  • 从芯片视角解读功能安全标准ISO26262
  • 计算机毕业设计之基于JSP的职工绩效考核管理系统
  • 中科院清华提出LongRAG,双视角RAG范式告别长文本问答“迷失困境”!