当前位置：首页 > news >正文

BERT算法学习1-嵌入层结构

news 2026/3/26 23:22:02

BERT 将输入序列表示为位置嵌入（position embedding）、句子嵌入（segment embedding）和词嵌入（token embedding）的叠加。

1.嵌入层

1.1Token Embedding

import torch import torch.nn as nn from transformers import BertTokenizer, BertConfig # 1. 加载BERT配置和分词器（用bert-base-chinese为例） config = BertConfig.from_pretrained("bert-base-chinese") tokenizer = BertTokenizer.from_pretrained("bert-base-chinese") # 2. 定义Token Embedding层（核心：vocab_size→hidden_size） # vocab_size：BERT的中文字典大小（约21128个字符） # hidden_size：768维，每个字符的语义向量维度 token_embedding = nn.Embedding( num_embeddings=config.vocab_size, embedding_dim=config.hidden_size # 输出：768维语义向量 ) # 3. 测试：输入文本→字符ID→Token Embedding text = "" # 第一步：分词（把文本转成字符ID，BERT的基础操作） inputs = tokenizer(text, return_tensors="pt") token_ids = inputs["input_ids"] # # 解释：101是[CLS]（句子开头），102是[SEP]（句子结尾），121=1，8024=kV，7552=母，7746=线 # 第二步：Token Embedding（字符ID→768维语义向量） token_emb = token_embedding(token_ids) print("Token Embedding维度：", token_emb.shape) # torch.Size([1, 8, 768])

将句子使用tokenizer分词，然后嵌入为[1,seqlens,hidden_size]

1.2 Position Emdedding

# 1. 定义Position Embedding层（核心：max_position_embeddings→hidden_size） # max_position_embeddings：BERT支持的最大句子长度（512） position_embedding = nn.Embedding( num_embeddings=config.max_position_embeddings, # 输入：位置ID（0-511） embedding_dim=config.hidden_size # 输出：768维位置向量 ) # 2. 生成位置ID（每个字符对应一个位置，从0开始） position_ids = torch.arange(token_ids.shape[1]).unsqueeze(0) # tensor([[0,1,2,3,4,5,6,7]]) # 解释：0=[CLS]，1=1，2=1，3=0，4=kV，5=母，6=线，7=[SEP] # 3. Position Embedding（位置ID→768维位置向量） pos_emb = position_embedding(position_ids) print("Position Embedding维度：", pos_emb.shape) # torch.Size([1, 8, 768])

1.3 Segment Embedding

仅用于成对句子任务（比如问答、文本匹配），表征字符属于第一个句子还是第二个句子；单句任务（比如你的实体识别）中，所有字符的 Segment ID 都是 0，因此这个嵌入是全 0 向量，对结果无影响。

# 1. 定义Segment Embedding层（核心：type_vocab_size→hidden_size） # type_vocab_size：句子类型数（BERT默认2，对应句子1/句子2） segment_embedding = nn.Embedding( num_embeddings=config.type_vocab_size, # 输入：句子类型ID（0/1） embedding_dim=config.hidden_size # 输出：768维句子向量 ) # 2. 生成Segment ID（单句任务：全0；成对句子：0/1区分） # 场景1：单句（你的实体识别场景） segment_ids_single = torch.zeros_like(token_ids) # tensor([[0,0,0,0,0,0,0,0]]) seg_emb_single = segment_embedding(segment_ids_single) print("单句Segment Embedding前5维：", seg_emb_single[0, 1, :5]) # 全0 # 场景2：成对句子（比如“问题：110kV母线是什么？ 回答：电力设备”） text1 = "110kV母线是什么？" text2 = "电力设备" inputs_pair = tokenizer(text1, text2, return_tensors="pt") segment_ids_pair = inputs_pair["token_type_ids"] # tensor([[0,0,0,0,0,0,0,1,1,1,1]]) # 解释：0=属于第一个句子，1=属于第二个句子 seg_emb_pair = segment_embedding(segment_ids_pair)

然后将三个向量concat表示每个维度既包含词义、位置信息还有所属句信息

查看全文

http://www.jsqmd.com/news/512772/