当前位置：首页 > news >正文

bert-base-portuguese-cased API完全参考：fill-mask与特征提取的Python实现示例

news 2026/6/5 17:55:04

bert-base-portuguese-cased API完全参考：fill-mask与特征提取的Python实现示例

【免费下载链接】bert-base-portuguese-cased项目地址: https://ai.gitcode.com/hf_mirrors/Changchun_Ascend/bert-base-portuguese-cased

bert-base-portuguese-cased是一个专门为巴西葡萄牙语优化的BERT预训练模型，它在多个NLP下游任务中达到了最先进的性能表现。这个强大的语言模型提供了完整的API接口，支持fill-mask（掩码语言建模）和特征提取两大核心功能。无论您是NLP初学者还是经验丰富的开发者，本文都将为您提供详细的Python实现指南，帮助您快速上手这个专业的葡萄牙语AI工具。

📋 模型基本信息与安装准备

bert-base-portuguese-cased是基于BERT-Base架构构建的葡萄牙语模型，拥有12层Transformer层和1.1亿参数。该模型在巴西葡萄牙语语料库brWaC上进行预训练，专门针对葡萄牙语的语法结构和语义特征进行了优化。

环境配置与安装

首先，您需要安装必要的依赖包。创建一个新的Python环境，然后安装以下包：

pip install transformers==4.37.0 accelerate==0.27.2 torch

如果您使用的是华为昇腾NPU硬件，还需要安装相应的torch_npu包以获得硬件加速支持。

模型文件结构

下载模型后，您会看到以下关键文件：

config.json- 模型配置文件，包含所有架构参数
pytorch_model.bin- PyTorch权重文件
vocab.txt- 词汇表文件，包含29794个葡萄牙语词汇
tokenizer_config.json- 分词器配置文件

🎯 fill-mask功能：掩码语言建模实战

fill-mask是BERT模型的核心功能之一，它能够预测句子中被掩码（[MASK]）的单词。对于葡萄牙语文本处理来说，这个功能特别有用，可以帮助您完成文本补全、语法纠错等任务。

基础用法示例

让我们从一个简单的例子开始，使用pipeline接口快速上手：

from transformers import pipeline # 加载模型和分词器 model_name = "Changchun_Ascend/bert-base-portuguese-cased" pipe = pipeline('fill-mask', model=model_name) # 测试葡萄牙语句子 result = pipe('Tinha uma [MASK] no meio do caminho.') print(result)

运行上述代码，您将得到类似以下的结果：

[{'score': 0.14287759363651276, 'sequence': '[CLS] Tinha uma pedra no meio do caminho. [SEP]', 'token': 5028, 'token_str': 'pedra'}, {'score': 0.06213393807411194, 'sequence': '[CLS] Tinha uma árvore no meio do caminho. [SEP]', 'token': 7411, 'token_str': 'árvore'}, {'score': 0.05515013635158539, 'sequence': '[CLS] Tinha uma estrada no meio do caminho. [SEP]', 'token': 5675, 'token_str': 'estrada'}]

高级配置选项

对于更复杂的应用场景，您可以手动配置模型和分词器：

from transformers import AutoModelForMaskedLM, AutoTokenizer import torch # 手动加载模型和分词器 tokenizer = AutoTokenizer.from_pretrained("Changchun_Ascend/bert-base-portuguese-cased") model = AutoModelForMaskedLM.from_pretrained("Changchun_Ascend/bert-base-portuguese-cased") # 准备输入文本 text = "O Brasil é um país muito [MASK]." inputs = tokenizer(text, return_tensors="pt") # 进行预测 with torch.no_grad(): outputs = model(**inputs) predictions = outputs.logits[0, inputs["input_ids"][0] == tokenizer.mask_token_id] # 获取前5个最佳预测 top_k = 5 predicted_ids = torch.topk(predictions, top_k).indices.tolist() for token_id in predicted_ids: predicted_token = tokenizer.decode([token_id]) print(f"预测单词: {predicted_token}")

🔍 特征提取：获取葡萄牙语文本向量表示

除了fill-mask功能，bert-base-portuguese-cased还提供了强大的特征提取能力，可以将葡萄牙语文本转换为768维的向量表示，这些向量可以直接用于各种机器学习任务。

获取句子嵌入

from transformers import AutoModel, AutoTokenizer import torch # 加载模型和分词器 model = AutoModel.from_pretrained('Changchun_Ascend/bert-base-portuguese-cased') tokenizer = AutoTokenizer.from_pretrained('Changchun_Ascend/bert-base-portuguese-cased') # 准备葡萄牙语文本 text = "A inteligência artificial está revolucionando o mundo." input_ids = tokenizer.encode(text, return_tensors='pt') # 获取嵌入向量 with torch.no_grad(): outputs = model(input_ids) # 获取最后一层隐藏状态（忽略[CLS]和[SEP]标记） embeddings = outputs.last_hidden_state[0, 1:-1] print(f"嵌入向量形状: {embeddings.shape}") print(f"每个标记的维度: {embeddings[0].shape}")

获取池化特征（句子级表示）

# 获取句子级表示（使用[CLS]标记） with torch.no_grad(): outputs = model(input_ids) # 使用[CLS]标记作为句子表示 sentence_embedding = outputs.last_hidden_state[0, 0] print(f"句子嵌入维度: {sentence_embedding.shape}") print(f"前10个特征值: {sentence_embedding[:10]}")

🚀 实际应用场景示例

场景1：葡萄牙语文本分类

import numpy as np from sklearn.svm import SVC from transformers import AutoModel, AutoTokenizer import torch # 提取多个句子的特征 def extract_features(texts, model, tokenizer): features = [] for text in texts: inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True) with torch.no_grad(): outputs = model(**inputs) # 使用平均池化 embeddings = outputs.last_hidden_state.mean(dim=1).squeeze() features.append(embeddings.numpy()) return np.array(features) # 示例数据 portuguese_texts = [ "Este filme é muito bom!", "Não gostei da comida do restaurante.", "A apresentação foi excelente.", "O serviço foi péssimo." ] labels = [1, 0, 1, 0] # 1: positivo, 0: negativo # 提取特征并训练分类器 features = extract_features(portuguese_texts, model, tokenizer) classifier = SVC() classifier.fit(features, labels)

场景2：葡萄牙语语义相似度计算

from sklearn.metrics.pairwise import cosine_similarity def calculate_similarity(text1, text2, model, tokenizer): # 提取两个文本的特征 inputs1 = tokenizer(text1, return_tensors="pt", padding=True, truncation=True) inputs2 = tokenizer(text2, return_tensors="pt", padding=True, truncation=True) with torch.no_grad(): outputs1 = model(**inputs1) outputs2 = model(**inputs2) # 使用[CLS]标记的表示 emb1 = outputs1.last_hidden_state[0, 0] emb2 = outputs2.last_hidden_state[0, 0] # 计算余弦相似度 similarity = cosine_similarity([emb1.numpy()], [emb2.numpy()])[0][0] return similarity # 示例 text1 = "O cachorro está brincando no parque." text2 = "O cão está se divertindo no jardim." similarity = calculate_similarity(text1, text2, model, tokenizer) print(f"语义相似度: {similarity:.4f}")

⚙️ 性能优化与最佳实践

批量处理提高效率

from transformers import AutoModel, AutoTokenizer import torch from tqdm import tqdm def batch_extract_features(texts, model, tokenizer, batch_size=8): all_features = [] for i in tqdm(range(0, len(texts), batch_size)): batch_texts = texts[i:i+batch_size] inputs = tokenizer( batch_texts, return_tensors="pt", padding=True, truncation=True, max_length=512 ) with torch.no_grad(): outputs = model(**inputs) # 使用平均池化获取句子表示 batch_features = outputs.last_hidden_state.mean(dim=1) all_features.append(batch_features) return torch.cat(all_features, dim=0)

内存优化技巧

# 使用梯度检查点节省内存 model.gradient_checkpointing_enable() # 使用混合精度训练（如果可用） if torch.cuda.is_available(): model = model.half() # 转换为半精度 # 使用数据并行（多GPU） if torch.cuda.device_count() > 1: model = torch.nn.DataParallel(model)

🛠️ 故障排除与常见问题

问题1：内存不足错误

解决方案：

减小批量大小
使用梯度累积
启用梯度检查点

# 启用梯度检查点 model.gradient_checkpointing_enable() # 使用梯度累积 optimizer.zero_grad() for i, batch in enumerate(batches): loss = model(batch).loss loss = loss / accumulation_steps loss.backward() if (i + 1) % accumulation_steps == 0: optimizer.step() optimizer.zero_grad()

问题2：分词器警告

解决方案：

确保文本长度不超过最大长度限制（512个标记）
使用适当的填充和截断策略

# 正确的分词方式 inputs = tokenizer( text, return_tensors="pt", padding="max_length", # 或 "longest" truncation=True, max_length=512 )

📊 模型性能指标

根据官方数据，bert-base-portuguese-cased在以下葡萄牙语NLP任务中表现出色：

命名实体识别（NER）：F1分数达到89.1%
句子文本相似度（STS）：皮尔逊相关系数达到84.3%
文本蕴含识别（RTE）：准确率达到89.7%

🎉 结语

bert-base-portuguese-cased为葡萄牙语NLP任务提供了一个强大而高效的解决方案。通过本文介绍的fill-mask和特征提取功能，您可以轻松地将这个先进的AI模型集成到您的葡萄牙语应用程序中。无论是文本分类、情感分析还是语义搜索，这个模型都能为您提供准确的葡萄牙语理解能力。

记住，成功的NLP应用不仅依赖于强大的模型，还需要合适的数据预处理、特征工程和模型微调。祝您在葡萄牙语AI项目中取得成功！