当前位置：首页 > news >正文

小白也能懂的Qwen3-VL微调教程：图文识别模型定制化入门

news 2026/7/15 17:20:33

小白也能懂的Qwen3-VL微调教程：图文识别模型定制化入门

1. 为什么需要微调Qwen3-VL模型？

Qwen3-VL是阿里云推出的新一代视觉语言模型，它能同时理解图片和文字内容。这个模型预训练时已经学会了很多通用技能，比如识别常见物体、理解图片中的文字等。但当我们有特殊需求时，比如：

识别公司内部特定格式的文档
从特定类型的图片中提取结构化信息
按照业务需求生成图片描述

这时候就需要对模型进行微调，让它学会我们的"专属技能"。就像教一个新员工熟悉公司内部流程一样，微调就是让AI模型适应我们的具体业务场景。

2. 准备工作：搭建微调环境

2.1 硬件要求

要微调Qwen3-VL模型，你的电脑需要满足以下配置：

组件	最低要求	推荐配置
GPU	NVIDIA RTX 3090 (24GB)	A100/A6000/V100 × 2
内存	32GB	64GB以上
存储	100GB SSD	500GB NVMe

如果只有单张24GB显存的显卡，也可以进行轻量级的LoRA微调，这是本文主要介绍的方法。

2.2 软件安装

首先创建一个Python虚拟环境：

conda create -n qwen_vl python=3.10 conda activate qwen_vl

然后安装必要的软件包：

pip install torch transformers peft accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple pip install flash-attn==2.6.3 --no-build-isolation

3. 准备训练数据

3.1 数据格式说明

微调Qwen3-VL需要准备问答形式的数据，每条数据包含：

一张或多张图片
用户提问（关于图片内容）
模型应有的回答

数据格式如下：

[ { "messages": [ { "role": "user", "content": "<image>这张发票上的总金额是多少？" }, { "role": "assistant", "content": "¥1,280.00" } ], "images": ["invoice_001.jpg"] } ]

3.2 创建小型示例数据集

假设我们要教模型识别身份证信息，可以创建这样的数据：

在项目目录下新建data/images/文件夹存放图片
创建id_card_demo.json文件：

[ { "messages": [ { "role": "user", "content": "<image>这张身份证上的姓名是什么？" }, { "role": "assistant", "content": "张三" } ], "images": ["data/images/id_card_1.jpg"] }, { "messages": [ { "role": "user", "content": "<image>这张身份证的有效期到什么时候？" }, { "role": "assistant", "content": "2030-12-31" } ], "images": ["data/images/id_card_2.jpg"] } ]

4. 开始微调模型

4.1 下载基础模型

从ModelScope下载Qwen3-VL-4B-Instruct模型：

git lfs install git clone https://www.modelscope.cn/qwen/Qwen3-VL-4B-Instruct.git

4.2 配置微调参数

创建微调配置文件train_lora.yaml：

model_name_or_path: ./Qwen3-VL-4B-Instruct dataset: id_card_demo template: qwen2_vl finetuning_type: lora lora_target: all output_dir: ./output per_device_train_batch_size: 1 gradient_accumulation_steps: 8 learning_rate: 1e-4 num_train_epochs: 3

4.3 启动微调

运行以下命令开始训练：

python -m llmtuner.train --config train_lora.yaml

训练过程中会显示类似这样的日志：

Epoch: 1/3, Step: 10/20, Loss: 0.45 Epoch: 2/3, Step: 15/20, Loss: 0.32 Epoch: 3/3, Step: 20/20, Loss: 0.21

5. 测试微调后的模型

5.1 加载微调后的模型

训练完成后，可以使用以下代码加载模型：

from transformers import AutoModelForCausalLM, AutoTokenizer from peft import PeftModel model = AutoModelForCausalLM.from_pretrained("./Qwen3-VL-4B-Instruct") model = PeftModel.from_pretrained(model, "./output") tokenizer = AutoTokenizer.from_pretrained("./Qwen3-VL-4B-Instruct")

5.2 进行测试

上传一张新的身份证图片进行测试：

from PIL import Image image = Image.open("new_id_card.jpg").convert("RGB") question = "<image>这张身份证上的姓名是什么？" inputs = tokenizer([question], return_tensors="pt") image_tensor = model.preprocess_image(image) inputs["images"] = [image_tensor] outputs = model.generate(**inputs, max_new_tokens=50) answer = tokenizer.decode(outputs[0], skip_special_tokens=True) print(answer) # 例如输出："张三"