当前位置：首页 > news >正文

LLaMA-Factory微调ChatGLM3-6B后，如何手动构建prompt模板并用vLLM推理（附完整代码）

news 2026/6/3 7:07:47

深度解析ChatGLM3-6B微调后的prompt构建与vLLM高效推理实战

当我们将ChatGLM3-6B这类大语言模型应用到具体业务场景时，微调只是第一步。真正考验技术深度的，是如何将微调后的模型无缝集成到生产环境中，并保持与训练时一致的推理效果。本文将带您深入理解LLaMA-Factory框架下的prompt构建机制，并手把手教您实现脱离框架依赖的独立部署方案。

1. 理解微调过程中的prompt封装机制

在LLaMA-Factory框架中进行微调时，框架会自动为Alpaca格式的数据集添加特定于模型的对话模板。这个看似简单的过程背后，实际上完成了几项关键转换：

# 原始Alpaca格式示例 { "instruction": "企业分类任务说明...", "input": "", "output": "[\"人工智能\",\"高端装备\"]" } # 转换后的ChatGLM3格式 { "prompt": [{"role": "user", "content": "企业分类任务说明..."}], "response": [{"role": "assistant", "content": "[\"人工智能\",\"高端装备\"]"}], "system": "", "tools": "" }

这种转换的核心价值在于：

角色标识注入：添加了<|user|>和<|assistant|>等特殊token，帮助模型区分对话角色
结构化重组：将单条指令拆分为符合ChatGLM3预期的对话轮次结构
上下文标记：添加[gMASK]sop等模型特定的上下文控制标记

关键点：训练时应用的模板必须与推理时完全一致，否则模型可能表现出不符合预期的行为。

2. 手动提取prompt模板的技术路线

要实现脱离LLaMA-Factory的独立部署，我们需要通过技术手段还原框架自动完成的prompt构建过程。以下是经过验证的有效方法：

2.1 通过tokenizer逆向工程

最可靠的方式是分析训练时实际使用的token序列：

from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained( "ZhipuAI/chatglm3-6b", trust_remote_code=True ) # 示例token序列（来自训练日志） input_ids = [64790, 64792, 64795, 30910, 13, ...] decoded_text = tokenizer.decode(input_ids) print(decoded_text)

典型输出结构：

[gMASK]sop<|user|> {用户指令} <|assistant|> {模型响应}

2.2 数据集转换过程分析

通过修改LLaMA-Factory的data/loader.py文件，可以打印出数据集转换的中间状态：

# 在loader.py中添加调试代码 print(f"Before conversion: {dataset[0]}") dataset = convert_alpaca(dataset, template) print(f"After conversion: {dataset[0]}")

这种方法能直观展示框架如何将原始指令转换为模型所需的格式。

3. 构建生产级vLLM推理服务

有了准确的prompt模板后，我们可以构建高性能的推理服务。以下是关键实现步骤：

3.1 模型权重合并与导出

首先需要将LoRA权重合并到基础模型中：

python src/export_model.py \ --model_name_or_path ZhipuAI/chatglm3-6b \ --adapter_name_or_path output/lora-weights \ --template chatglm3 \ --export_dir merged_model \ --export_size 2

参数说明：

参数	作用	注意事项
export_size	分片数量	根据GPU显存调整
template	模板类型	必须与训练时一致
finetuning_type	微调类型	指定为lora

3.2 vLLM推理引擎配置

针对ChatGLM3的特殊需求，需要定制化vLLM配置：

from vllm import LLM, SamplingParams sampling_params = SamplingParams( temperature=0.8, top_p=0.9, max_tokens=2048, stop=["<|user|>", "<|assistant|>"] ) llm = LLM( model="merged_model", trust_remote_code=True, tokenizer_mode="auto", tensor_parallel_size=2, # 多GPU并行 gpu_memory_utilization=0.9 )

3.3 prompt模板的精准应用

实现与训练时完全一致的prompt构建逻辑：

def build_chatglm3_prompt(instruction): return f"""[gMASK]sop<|user|> {instruction} <|assistant|>""" # 批量处理示例 inputs = ["企业分类任务1...", "企业分类任务2..."] prompts = [build_chatglm3_prompt(text) for text in inputs] outputs = llm.generate(prompts, sampling_params)

4. 性能优化与生产部署实践

在实际生产环境中，我们还需要考虑以下关键因素：

4.1 吞吐量优化技巧

连续批处理：利用vLLM的迭代式调度器实现动态批处理
内存管理：
- 启用PagedAttention减少内存碎片
- 调整gpu_memory_utilization参数平衡利用率与OOM风险

量化部署：

python -m vllm.entrypoints.api_server \ --model merged_model \ --quantization awq \ --dtype half

4.2 监控与日志

建议实现的监控指标：

性能指标：
- 请求延迟(P50/P95/P99)
- 每秒处理的token数
- GPU利用率
质量指标：
- 输出长度分布
- 停止token命中率
- 异常响应比例

# 简易监控装饰器示例 def monitor_metrics(func): def wrapper(*args, **kwargs): start_time = time.time() result = func(*args, **kwargs) latency = time.time() - start_time metrics = { "latency": latency, "output_len": len(result.outputs[0].token_ids), "timestamp": datetime.now() } logging.info(json.dumps(metrics)) return result return wrapper @monitor_metrics def generate_with_monitoring(prompt): return llm.generate(prompt, sampling_params)