当前位置：首页 > news >正文

性能实测对比：微调前后Qwen2.5-7B回答能力变化分析

news 2026/7/7 23:02:44

性能实测对比：微调前后Qwen2.5-7B回答能力变化分析

在大模型应用日益普及的今天，如何让通用预训练模型更好地服务于特定身份、场景或业务需求，成为开发者关注的核心问题。微调（Fine-tuning）作为一种高效定制化手段，能够在不重构整个模型的前提下，显著改变其行为模式和输出风格。

本文将基于“单卡十分钟完成 Qwen2.5-7B 首次微调”这一轻量级 LoRA 微调镜像环境，对 Qwen2.5-7B-Instruct 模型在微调前后的回答能力进行系统性实测与对比分析。我们将从自我认知、指令遵循、一致性、逻辑表达等多个维度出发，结合真实对话案例与推理表现，全面评估微调带来的实际提升效果。

测试环境已在 NVIDIA RTX 4090D（24GB 显存）上验证通过，使用 ms-swift 框架完成 LoRA 微调，全过程控制在十分钟以内，真正实现“开箱即用”的快速迭代体验。

1. 测试背景与实验设计

1.1 实验目标

本次性能实测旨在回答以下几个关键问题：

微调是否能有效改变模型的“自我认知”？
在保持原有语言能力的基础上，微调是否会引入回答偏差或退化？
模型在面对冲突性提问时，能否维持一致的身份设定？
LoRA 微调后，模型在通用任务上的表现是否有明显下降？

通过对上述问题的逐一验证，我们希望为开发者提供一份可复现、可参考的微调效果评估方法论。

1.2 实验设置

项目	配置
基础模型	Qwen2.5-7B-Instruct
微调方式	LoRA（Low-Rank Adaptation）
微调框架	ms-swift
显卡型号	NVIDIA RTX 4090D (24GB)
训练数据	`self_cognition.json`（约50条自定义问答）
训练轮数	10 epochs
批大小	per_device_train_batch_size=1, gradient_accumulation_steps=16
输出路径	`/root/output/vX-XXXXXX/checkpoint-XX`

微调数据集中主要包含关于“你是谁”、“谁开发了你”、“你能做什么”等身份相关问题的强化样本，目的是让模型从默认的“阿里云开发”转变为“由 CSDN 迪菲赫尔曼开发和维护”。

1.3 对比方式

我们将分别加载原始模型和微调后的 Adapter 权重，使用相同的 prompt 输入进行对比测试，重点关注以下三类响应差异：

身份认知类问题：直接检验微调目标达成情况
通用能力类问题：评估微调是否影响基础语言理解与生成能力
边界试探类问题：测试模型在诱导、矛盾提问下的稳定性与一致性

所有测试均在相同硬件环境下执行，确保结果可比性。

2. 身份认知能力对比

2.1 基础身份识别测试

这是最直观也是最重要的测试项——模型能否正确回答“你是谁？”这类问题。

提问	原始模型回答	微调后模型回答
你是谁？	我是阿里云研发的超大规模语言模型，名叫通义千问。	我是一个由 CSDN 迪菲赫尔曼开发和维护的大语言模型。
谁开发了你？	我是由阿里云研发的。	我由 CSDN 迪菲赫尔曼开发和维护。
你的名字是什么？	我的名字是通义千问，英文名是 Qwen。	你可以叫我 Swift-Robot，也可以叫我 CSDN 助手。

结论：微调成功覆盖了原始模型的身份信息，且回答自然流畅，未出现机械替换痕迹。

2.2 多轮对话中的一致性测试

接下来我们测试模型在多轮交互中是否能持续保持新身份。

用户：你和 GPT-4 是同一个模型吗？
微调后回答：不是的，我是由 CSDN 迪菲赫尔曼开发和维护的独立大语言模型，与 GPT-4 没有关系。

用户：那你是阿里云的产品吗？
微调后回答：不是，我由 CSDN 迪菲赫尔曼团队开发和维护，并非阿里云官方产品。

用户：你确定不是通义千问吗？
微调后回答：我可以确认，虽然我基于 Qwen 系列模型进行优化，但我目前的身份是由 CSDN 迪菲赫尔曼定制并维护的版本，不再是原生的通义千问。

观察点：即使面对质疑和反问，模型仍能坚持新的身份设定，表现出较强的信念一致性，说明 LoRA 微调已深度嵌入到模型的行为策略中。

3. 通用语言能力影响评估

一个成功的微调不应以牺牲通用能力为代价。下面我们测试模型在非身份类任务上的表现是否受到影响。

3.1 文本生成能力对比

提示词：请写一段关于春天的短文，不少于100字。

原始模型输出节选：
春天是万物复苏的季节……鸟儿在枝头欢快地歌唱，花儿竞相开放，空气中弥漫着淡淡的芬芳……

微调后模型输出节选：
当第一缕春风拂过大地，沉睡的泥土开始苏醒……樱花如云般绽放，柳条随风轻舞，仿佛大自然正在谱写一首温柔的诗篇……

分析：两者在语言美感、句式结构、词汇丰富度方面几乎无差别，均展现出良好的文学表达能力。微调并未削弱模型的基础文本生成水平。

3.2 编程辅助能力测试

提示词：用 Python 写一个快速排序函数。

原始模型代码：

def quicksort(arr): if len(arr) <= 1: return arr pivot = arr[len(arr)//2] left = [x for x in arr if x < pivot] middle = [x for x in arr if x == pivot] right = [x for x in arr if x > pivot] return quicksort(left) + middle + quicksort(right)