当前位置：首页 > news >正文

Qwen3.5-9B训练复现：从SFT到RLHF的全流程开源实践指南

news 2026/4/9 7:04:30

Qwen3.5-9B训练复现：从SFT到RLHF的全流程开源实践指南

1. 项目概述

Qwen3.5-9B是一个拥有90亿参数的开源大语言模型，具备强大的逻辑推理、代码生成和多轮对话能力。该模型支持多模态理解（图文输入）和长上下文处理（最高可达128K tokens），是当前开源社区中性能优异的中文大模型之一。

1.1 核心特性

多模态理解：支持图片上传和分析，能够理解图片内容并回答相关问题
长文本处理：最大支持128K tokens的上下文长度
参数规模：90亿参数规模，在推理和生成任务上表现优异
开源可用：完全开源，支持本地部署和二次开发

2. 环境准备与部署

2.1 基础环境配置

项目运行在torch28 Conda环境下，使用Supervisor进行进程管理，服务端口为7860。以下是环境搭建的基本步骤：

# 创建conda环境 conda create -n torch28 python=3.10 conda activate torch28 # 安装基础依赖 pip install torch==2.8.0 transformers>=5.0.0 gradio==6.x huggingface_hub>=1.3.0

2.2 项目结构

项目目录结构如下：

/root/qwen3.5-9b/ ├── app.py # 主程序 (Gradio WebUI) ├── start.sh # 启动脚本 ├── service.log # 运行日志 └── history.json # 对话历史记录

3. 模型训练流程

3.1 SFT阶段（监督微调）

监督微调(SFT)是模型训练的第一步，使用高质量的人类标注数据进行微调：

from transformers import AutoModelForCausalLM, AutoTokenizer model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen3.5-9B") tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3.5-9B") # 加载SFT数据集 train_dataset = load_dataset("your_sft_dataset") # 配置训练参数 training_args = TrainingArguments( output_dir="./results", num_train_epochs=3, per_device_train_batch_size=4, save_steps=1000, save_total_limit=2, learning_rate=5e-5, fp16=True ) # 开始训练 trainer = Trainer( model=model, args=training_args, train_dataset=train_dataset, tokenizer=tokenizer ) trainer.train()

3.2 RLHF阶段（基于人类反馈的强化学习）

RLHF阶段通过人类反馈数据进一步优化模型：

from trl import PPOTrainer, AutoModelForCausalLMWithValueHead # 加载SFT后的模型 model = AutoModelForCausalLMWithValueHead.from_pretrained("your_sft_model") tokenizer = AutoTokenizer.from_pretrained("your_sft_model") # 配置PPO训练器 ppo_trainer = PPOTrainer( model=model, config={ "batch_size": 8, "learning_rate": 1.41e-5, "ppo_epochs": 4 }, tokenizer=tokenizer ) # 加载偏好数据集 preference_dataset = load_dataset("your_preference_data") # 执行RLHF训练 for epoch in range(3): for batch in preference_dataset: # 生成响应 query_tensors = tokenizer(batch["query"], return_tensors="pt", padding=True) response_tensors = ppo_trainer.generate(**query_tensors) # 计算奖励 rewards = compute_rewards(batch["query"], response_tensors) # PPO更新 ppo_trainer.step(query_tensors, response_tensors, rewards)

4. 模型部署与使用

4.1 服务启动与管理

使用Supervisor管理服务进程，配置文件位于/etc/supervisor/conf.d/qwen3.5-9b.conf：

[program:qwen3.5-9b] command=/bin/bash /root/qwen3.5-9b/start.sh directory=/root/qwen3.5-9b environment=HOME="/root",USER="root",LOGNAME="root",SHELL="/bin/bash",PATH="/opt/miniconda3/envs/torch28/bin:/usr/bin:/bin" user=root autostart=true autorestart=true startsecs=30 startretries=3 redirect_stderr=true stdout_logfile=/root/qwen3.5-9b/service.log stopasgroup=true killasgroup=true

常用管理命令：

# 查看服务状态 supervisorctl status qwen3.5-9b # 重启服务 supervisorctl restart qwen3.5-9b # 停止服务 supervisorctl stop qwen3.5-9b

4.2 Web界面功能

通过Gradio提供的Web界面支持以下功能：

文本对话：支持中英文对话
图片上传：支持JPEG, PNG, GIF, WEBP等格式
图片描述：上传图片后可询问图片内容
参数调节：可调整max_tokens, temperature, top_p, top_k等参数

5. 模型性能优化

5.1 推理加速

使用以下技术提升推理速度：

# 启用Flash Attention model = AutoModelForCausalLM.from_pretrained( "Qwen/Qwen3.5-9B", torch_dtype=torch.float16, device_map="auto", use_flash_attention_2=True ) # 量化压缩 from transformers import BitsAndBytesConfig quantization_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_compute_dtype=torch.float16, bnb_4bit_quant_type="nf4" ) model = AutoModelForCausalLM.from_pretrained( "Qwen/Qwen3.5-9B", quantization_config=quantization_config )