当前位置：首页 > news >正文

ChatGLM-6B模型微调实战：领域适配完整指南

news 2026/5/12 14:21:41

ChatGLM-6B模型微调实战：领域适配完整指南

1. 引言

你是不是遇到过这样的情况：用通用的ChatGLM-6B模型处理专业领域问题时，回答总是不够精准？比如问医疗问题，它给出的建议可能不够专业；问法律咨询，回答可能不够严谨。这就是为什么我们需要对模型进行领域适配微调。

今天这篇文章，我将手把手带你完成ChatGLM-6B的领域适配微调全流程。不需要高深的机器学习背景，只要跟着步骤走，你就能让ChatGLM-6B在你的专业领域里表现得更出色。

2. 环境准备与快速部署

2.1 基础环境搭建

首先，我们需要准备好运行环境。ChatGLM-6B对硬件要求不算太高，但也要确保满足基本条件：

# 创建项目目录 mkdir chatglm-finetune && cd chatglm-finetune # 创建Python虚拟环境 python -m venv venv source venv/bin/activate # Linux/Mac # 或者 venv\Scripts\activate # Windows # 安装基础依赖 pip install torch transformers datasets peft accelerate

2.2 模型下载与加载

接下来下载ChatGLM-6B模型。如果你网络条件不错，可以直接从Hugging Face下载：

from transformers import AutoTokenizer, AutoModel model_name = "THUDM/chatglm-6b" tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True) model = AutoModel.from_pretrained(model_name, trust_remote_code=True).half().cuda()

如果下载速度慢，也可以先下载到本地再加载：

# 从本地路径加载 local_path = "./chatglm-6b" tokenizer = AutoTokenizer.from_pretrained(local_path, trust_remote_code=True) model = AutoModel.from_pretrained(local_path, trust_remote_code=True).half().cuda()

3. 数据准备与处理

3.1 数据格式要求

微调数据最好采用对话格式，这样模型能更好地学习领域特定的对话模式。基本格式如下：

[ { "instruction": "解释一下糖尿病", "input": "", "output": "糖尿病是一种慢性代谢性疾病，特征是血糖水平持续升高..." }, { "instruction": "翻译以下医学术语", "input": "myocardial infarction", "output": "心肌梗死" } ]

3.2 数据预处理代码

from datasets import Dataset import json def load_and_process_data(data_path): with open(data_path, 'r', encoding='utf-8') as f: data = json.load(f) processed_data = [] for item in data: # 构建训练文本 if item['input']: text = f"问：{item['instruction']} {item['input']}\n答：{item['output']}" else: text = f"问：{item['instruction']}\n答：{item['output']}" processed_data.append({"text": text}) return Dataset.from_list(processed_data) # 加载数据 train_dataset = load_and_process_data("medical_data.json")

3.3 数据 tokenization

def tokenize_function(examples): # 设置最大长度 max_length = 512 tokenized = tokenizer( examples["text"], truncation=True, max_length=max_length, padding=False, return_tensors=None ) # 对于生成任务，标签就是输入本身 tokenized["labels"] = tokenized["input_ids"].copy() return tokenized tokenized_dataset = train_dataset.map( tokenize_function, remove_columns=train_dataset.column_names, batched=True )

4. 微调训练配置

4.1 训练参数设置

from transformers import TrainingArguments, Trainer training_args = TrainingArguments( output_dir="./chatglm-medical-finetuned", num_train_epochs=3, per_device_train_batch_size=2, gradient_accumulation_steps=8, learning_rate=2e-5, fp16=True, logging_steps=10, save_steps=500, evaluation_strategy="no", save_total_limit=2, remove_unused_columns=False, )

4.2 使用LoRA进行高效微调

为了节省显存并加快训练速度，我们可以使用LoRA（Low-Rank Adaptation）技术：

from peft import LoraConfig, get_peft_model lora_config = LoraConfig( r=8, lora_alpha=32, target_modules=["query_key_value"], lora_dropout=0.1, bias="none", task_type="CAUSAL_LM" ) model = get_peft_model(model, lora_config) model.print_trainable_parameters()

4.3 开始训练

trainer = Trainer( model=model, args=training_args, train_dataset=tokenized_dataset, data_collator=lambda data: {'input_ids': torch.stack([f['input_ids'] for f in data]), 'attention_mask': torch.stack([f['attention_mask'] for f in data]), 'labels': torch.stack([f['labels'] for f in data])} ) # 开始训练 trainer.train() # 保存模型 trainer.save_model()

5. 模型评估与优化

5.1 评估指标设置

训练完成后，我们需要评估模型在领域任务上的表现：

def evaluate_model(test_questions): model.eval() results = [] for question in test_questions: with torch.no_grad(): response, history = model.chat(tokenizer, question, history=[]) results.append({"question": question, "answer": response}) return results # 测试问题 test_questions = [ "什么是冠状动脉疾病？", "高血压患者应该注意什么？", "解释一下胰岛素的作用机制" ] evaluation_results = evaluate_model(test_questions)

5.2 超参数调优技巧

如果初始结果不理想，可以尝试调整这些超参数：

学习率：尝试1e-5到5e-5之间的值
Batch Size：根据显存调整，配合gradient_accumulation_steps
LoRA参数：调整r值（4-16）和alpha值（16-64）
训练轮数：通常2-5轮足够，过多可能导致过拟合

6. 模型部署与使用

6.1 加载微调后的模型

from peft import PeftModel # 加载基础模型 base_model = AutoModel.from_pretrained( "THUDM/chatglm-6b", trust_remote_code=True ).half().cuda() # 加载LoRA权重 model = PeftModel.from_pretrained(base_model, "./chatglm-medical-finetuned")

6.2 创建领域专用对话函数

def medical_chat(question, history=None): if history is None: history = [] # 添加领域特定的提示词 medical_prompt = "你是一个专业的医疗助手，请用准确专业的医学知识回答以下问题：\n" formatted_question = medical_prompt + question response, updated_history = model.chat( tokenizer, formatted_question, history=history ) return response, updated_history # 使用示例 response, history = medical_chat("糖尿病患者应该如何控制饮食？") print(response)

7. 常见问题解决

在实际微调过程中，你可能会遇到这些问题：

问题1：显存不足解决方案：减小batch size，增加gradient_accumulation_steps，使用4bit量化

问题2：过拟合解决方案：增加数据量，减少训练轮数，使用早停策略

问题3：生成质量不高解决方案：检查数据质量，调整温度参数（temperature）

问题4：中文处理问题解决方案：确保使用正确的tokenizer，检查文本编码

8. 进阶技巧与建议

8.1 多轮对话训练

为了让模型更好地处理多轮对话，可以这样准备数据：

multi_turn_example = { "conversations": [ {"role": "user", "content": "我觉得头痛"}, {"role": "assistant", "content": "头痛持续多久了？有什么其他症状吗？"}, {"role": "user", "content": "从昨天开始，还有点发烧"}, {"role": "assistant", "content": "可能是感冒引起的，建议休息并服用退烧药..."} ] }