二、核心架构:Transformer
1. 自注意力Self-Attention:抓取句子前后关联,看懂指代、逻辑;
2. Encoder:理解输入(BERT类只用编码器,侧重理解);
3. Decoder:生成文本(GPT类只用解码器,侧重续写);
4. 位置编码:让模型识别字词先后顺序。
二、核心架构:Transformer
1. 自注意力Self-Attention:抓取句子前后关联,看懂指代、逻辑;
2. Encoder:理解输入(BERT类只用编码器,侧重理解);
3. Decoder:生成文本(GPT类只用解码器,侧重续写);
4. 位置编码:让模型识别字词先后顺序。