当前位置：首页 > news >正文

Hugging Face Transformers 介绍

news 2026/3/26 16:03:55

Hugging Face Transformers 是一个强大的自然语言处理（NLP）库，提供了多种预训练的模型和工具，支持各种任务，如文本分类、文本生成、翻译、问答等。该库的设计旨在简化模型的使用和微调，使研究者和开发者能够快速构建和部署 NLP 应用。

主要特性

多种预训练模型：支持 BERT, GPT-2, T5, RoBERTa 等多种流行的预训练模型。
易于使用的 API：提供了简单的接口，方便用户加载模型、处理数据和进行推理。
支持多种框架：兼容 PyTorch 和 TensorFlow，用户可以根据自己的需求选择框架。
社区支持：活跃的社区和丰富的文档，提供了大量的教程和示例。

安装 Hugging Face Transformers

可以通过 pip 安装 Hugging Face Transformers：

pip install transformers

基本用法示例

下面是一个使用 Hugging Face Transformers 加载 BERT 模型进行文本分类的示例。

示例代码

from transformers import pipeline # 创建文本分类管道 classifier = pipeline("sentiment-analysis") # 输入文本 text = "I love using Hugging Face Transformers!" # 进行情感分析 result = classifier(text) # 输出结果 print(result)

代码解释

导入库：
- 从transformers导入pipeline，这是一个用于处理特定任务的高级接口。
创建管道：
- 使用pipeline("sentiment-analysis")创建一个情感分析管道。
输入文本：
- 定义要分析的文本。
进行推理：
- 调用管道对文本进行情感分析，并返回结果。
输出结果：
- 打印分析结果，通常包括情感标签和置信度。

微调模型示例

如果你想微调一个模型以适应特定任务，可以使用Trainer类。以下是一个简单的微调示例：

from transformers import Trainer, TrainingArguments, BertForSequenceClassification, BertTokenizer from datasets import load_dataset # 加载数据集 dataset = load_dataset("glue", "mrpc") # 加载模型和分词器 model = BertForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=2) tokenizer = BertTokenizer.from_pretrained("bert-base-uncased") # 数据预处理 def preprocess_function(examples): return tokenizer(examples['sentence1'], examples['sentence2'], truncation=True) tokenized_datasets = dataset.map(preprocess_function, batched=True) # 设置训练参数 training_args = TrainingArguments( output_dir="./results", evaluation_strategy="epoch", learning_rate=2e-5, per_device_train_batch_size=16, num_train_epochs=3, ) # 创建 Trainer trainer = Trainer( model=model, args=training_args, train_dataset=tokenized_datasets["train"], eval_dataset=tokenized_datasets["validation"], ) # 开始训练 trainer.train()

Find More