当前位置：首页 > news >正文

第七讲上自监督学习self-supervised learning-BERT

news 2026/7/10 14:27:50

第七讲自监督学习self-supervised learning

常见的自监督模型大小：BERT<GPT<SWITCH

监督学习（supervised learning）：有标签

自监督学习（self-supervised learning）：没标签（属于无监督学习的一种类型）

自监督学习的原理是初始资料X分为X1、X2将X2输入model，输出Y，让Y 尽可能接近X1

常用于自然语言处理。

输入一排向量->输出一排向量（输入长度=输出长度）

BERT学如下的两个任务

1，方法一：Masking Input

Masking Input 原理：随机选一个词盖住，盖住的方法有利用特殊符号代替、选择随机词汇代替遮住的词

将输入句子经过BERT模型，再经过Linear层softmax层，最小化输出结果和真实值的交叉熵

2.方法二：Next Sentence prediction 这个方法不常用，效果不好因为判断句子是否相连这个问题太简单！

BERT使用：

得到BERT的方法是pre-train（又称为self-supervised learning）

BERT经过微调fine- tune解决下游任务

上诉9个方法用于检测大模型的好坏，例如：将BERT微调后生成9个模型运行在上面的9个任务，评估模型好坏

这个评估的任务组称为GLUE

Linear层和BERT层都是使用梯度下降法更新参数

参数初始化：

Linear层利用随机初始化

BERT层利用之前训练好的参数初始化（就是可以预测遮住词汇的那个BERT或相接句子的那个BERT(这种任务类似于做填空题）），这种初始化优于随机初始化。

综上：利用BERT解决问题可以看作是半监督学习，训练BERT模型时是自监督学习（训练方法：预测遮住词汇的那个BERT或相接句子的那个BERT），微调BERT运用在下游任务上（监督学习）

前提premise->假设hypothesis

BERT做填空题不用自己训练（就是判断遮住词汇是什么的能力或者句子是否相接这件事情）耗时长

BERT是deep的word embedding，中间挖空用上下文推导那一个空。

模型与语言对比：

关键结论：
1. Google’s Multi-BERT 在所有展示语言中均表现出远超 “Our Multi-BERT” 的对齐能力，说明其多语言预训练策略更优。
2. 希腊语（el）是所有对比语言中对齐效果最好的，推测可能与该语言在模型预训练数据中的分布或语法特性有关；阿拉伯语（ar）整体对齐分数偏低，或因语言结构复杂度导致模型学习难度更高