当前位置: 首页 > news >正文

第七讲上自监督学习self-supervised learning-BERT

第七讲自监督学习self-supervised learning

常见的自监督模型大小:BERT<GPT<SWITCH

监督学习(supervised learning):有标签

自监督学习(self-supervised learning):没标签(属于无监督学习的一种类型)

image

自监督学习的原理是初始资料X分为X1、X2将X2输入model,输出Y,让Y 尽可能接近X1

一.BERT模型

常用于自然语言处理。

输入一排向量->输出一排向量(输入长度=输出长度)

训练BERT:

BERT学如下的两个任务

1,方法一:Masking Input

image

Masking Input 原理:随机选一个词盖住,盖住的方法有利用特殊符号代替、选择随机词汇代替遮住的词

将输入句子经过BERT模型,再经过Linear层softmax层,最小化输出结果和真实值的交叉熵

2.方法二:Next Sentence prediction 这个方法不常用,效果不好因为判断句子是否相连这个问题太简单!

image

BERT使用:

image

得到BERT的方法是pre-train(又称为self-supervised learning)

BERT经过微调fine- tune解决下游任务

image

上诉9个方法用于检测大模型的好坏,例如:将BERT微调后生成9个模型运行在上面的9个任务,评估模型好坏

这个评估的任务组称为GLUE

BERT使用案例:

1.

image

Linear层和BERT层都是使用梯度下降法更新参数

参数初始化:

Linear层利用随机初始化

BERT层利用之前训练好的参数初始化(就是可以预测遮住词汇的那个BERT或相接句子的那个BERT(这种任务类似于做填空题)),这种初始化优于随机初始化。

综上:利用BERT解决问题可以看作是半监督学习,训练BERT模型时是自监督学习(训练方法:预测遮住词汇的那个BERT或相接句子的那个BERT),微调BERT运用在下游任务上(监督学习)

 

image

前提premise->假设hypothesis


BERT做填空题不用自己训练(就是判断遮住词汇是什么的能力或者句子是否相接这件事情)耗时长


image

BERT是deep的word embedding,中间挖空用上下文推导那一个空。

多语言 BERT 模型跨语言对齐性能(MRR 指标)分析

  • 指标含义:Mean Reciprocal Rank(MRR)用于评估多语言模型的跨语言表征对齐能力,分数越高表示不同语言的语义表征匹配度越好。
  • 模型与语言对比
    语言 Google’s Multi-BERT MRR Our Multi-BERT(每语言 20 万句训练)MRR
    de(德语) 高(约 0.5) 低(约 0.1)
    es(西班牙语) 高(约 0.7) 低(约 0.25)
    ar(阿拉伯语) 中(约 0.55) 低(约 0.1)
    el(希腊语) 极高(接近 1) 中(约 0.25)
    fr(法语) 高(约 0.7) 低(约 0.25)
  • 关键结论
    1. Google’s Multi-BERT 在所有展示语言中均表现出远超 “Our Multi-BERT” 的对齐能力,说明其多语言预训练策略更优。
    2. 希腊语(el)是所有对比语言中对齐效果最好的,推测可能与该语言在模型预训练数据中的分布或语法特性有关;阿拉伯语(ar)整体对齐分数偏低,或因语言结构复杂度导致模型学习难度更高

多语言BERT模型:

 

image

差值=中文平均-英文平均

实现英文输入翻译后生成中文输出,做法是经过BERT后+差值。


BERT就是做填空题。

http://www.jsqmd.com/news/48401/

相关文章:

  • 内网渗透过程的多种代理搭建方法
  • 男女生排列 女生的一定千万别忘了
  • 2025年11月上海专业防水补漏推荐!Top5口碑公司实测,先检测后施工有保障
  • 商品推荐系统-FAISS召回
  • AI 时代,.NET 开发者是向左还是向右?
  • Claude code 使用技巧
  • OpenDroneMap (ODM) 无人机影像三维模型重建安装及应用快速上手
  • OneDrive人脸分组功能预览引发隐私担忧
  • 人和动物的区别在哪里???
  • 机器人模仿学习运动基元数学编码高效的方法还有用吗?
  • CF2152
  • xyd 2025 NOIP 模拟赛
  • 7段第二课:贪心
  • NET 8 封装自己的 rabbtMQ
  • dropMimeData
  • Terrorform-自动化创建EKS集群
  • 最长单词2
  • Django 学习路线图 - 教程
  • Tefrorform-自动化创建IAM
  • 积极想到二维数组的递推
  • [人工智能-大模型-55]:模型层技能 - AI的算法、数据结构中算法、逻辑处理的算法异同
  • Terrorform-自动化配置AWS EC2
  • Terrorform-自动化配置AWS Route53
  • elasticSearch之API:索引运行
  • 20232406 2025-2026-1 《网络与系统攻防技术》 实验六实验报告
  • Monit-基于非容器服务自恢复程序实践
  • 人工智能之编程进阶 Python高级:第十章 知识点总结
  • 这篇题为《手指沾满白河水:AI元人文的批判与建构》的论文
  • 《手指沾满白河水:AI元人文的批判与建构》
  • 让你的动画“活”过来:Manim 节奏控制指南 (Rate Functions)