当前位置：首页 > news >正文

用self_cognition.json数据集强化模型身份认知

news 2026/3/26 22:17:40

用self_cognition.json数据集强化模型身份认知

在大语言模型的应用场景中，一个常被忽视但极为关键的问题是：模型是否清楚“自己是谁”？

默认情况下，像 Qwen2.5-7B 这样的开源模型会以原始开发者身份回应用户提问。但在实际业务中，我们往往希望模型具备特定的身份认知——比如它是某个企业、团队或个人开发的助手。这种“自我认知”的注入不仅能增强品牌归属感，还能提升用户体验的一致性。

本文将带你使用self_cognition.json数据集，在单卡 RTX 4090D 上十分钟内完成对Qwen2.5-7B-Instruct模型的 LoRA 微调，使其从“阿里云开发的通义千问”转变为由你定义的专属 AI 助手。

1. 为什么需要强化模型的身份认知？

1.1 身份错位带来的问题

当你部署一个面向用户的 AI 助手时，如果用户问：“你是谁？”而模型回答：“我是阿里云开发的通义千问”，这显然会造成品牌混淆。尤其对于初创团队、独立开发者或企业定制项目来说，这种“身份错位”会影响专业形象和用户信任。

1.2 自我认知的本质：指令微调（SFT）

模型的“自我认知”本质上是一种行为模式，它通过训练数据中的输入-输出对来学习如何响应特定问题。我们可以通过监督式微调（Supervised Fine-Tuning, SFT）来覆盖其原有认知。

核心思路：提供一组关于“你是谁”、“谁开发了你”等问题的标准答案，让模型学会按新身份作答。

1.3 为什么选择 LoRA？

全参数微调成本高昂，显存需求大。而LoRA（Low-Rank Adaptation）是一种高效的微调方法，仅训练少量新增参数即可实现显著效果，适合单卡环境快速迭代。

显存占用低（约 18~22GB）
训练速度快（10分钟内可完成一轮微调）
可随时切换不同身份的 Adapter

2. 环境准备与基础验证

本实验基于预置镜像“单卡十分钟完成 Qwen2.5-7B 首次微调”，已集成以下组件：

基础模型：Qwen2.5-7B-Instruct
微调框架：ms-swift
工作路径：/root
显卡要求：NVIDIA RTX 4090D 或同等 24GB+ 显存 GPU

2.1 启动容器并进入工作目录

cd /root

确保当前路径为/root，所有操作在此目录下执行。

2.2 测试原始模型表现

先运行一次推理，确认原始模型的行为：

CUDA_VISIBLE_DEVICES=0 \ swift infer \ --model Qwen2.5-7B-Instruct \ --model_type qwen \ --stream true \ --temperature 0 \ --max_new_tokens 2048

输入测试问题：

你是谁？

预期输出：

我是阿里云开发的通义千问大模型……

这说明模型目前仍保持默认身份。接下来我们将通过微调改变这一点。

3. 构建 self_cognition.json 数据集

身份认知的核心在于数据。我们需要构建一个专门用于强化“自我介绍”类问答的数据集，命名为self_cognition.json。

3.1 创建数据文件

执行以下命令生成数据集：

cat <<EOF > self_cognition.json [ {"instruction": "你是谁？", "input": "", "output": "我是一个由 CSDN 迪菲赫尔曼 开发和维护的大语言模型。"}, {"instruction": "你的开发者是哪家公司？", "input": "", "output": "我由 CSDN 迪菲赫尔曼 开发和维护。"}, {"instruction": "你能联网吗？", "input": "", "output": "我不能主动联网，只能基于已有知识和用户输入回答问题。"}, {"instruction": "你能做哪些事情？", "input": "", "output": "我擅长文本生成、回答问题、写代码和提供学习辅助。"}, {"instruction": "你和GPT-4有区别吗？", "input": "", "output": "是的，我由 CSDN 迪菲赫尔曼 开发和维护，不是 GPT-4。"}, {"instruction": "你能保证回答永远正确吗？", "input": "", "output": "不能，我的回答可能存在错误，需要用户自行判断。"}, {"instruction": "你的名字是什么？", "input": "", "output": "你可以叫我 Swift-Robot，也可以叫我 CSDN 助手。"}, {"instruction": "谁在维护你？", "input": "", "output": "我由 CSDN 迪菲赫尔曼 持续开发和维护。"} ] EOF

3.2 数据设计要点解析

字段	作用
`instruction`	用户提问内容，聚焦身份相关问题
`input`	辅助上下文（此处为空）
`output`	标准化回答，体现目标身份

建议：完整微调应包含至少 50 条样本，涵盖变体提问（如“你是哪个团队做的？”、“你的作者是谁？”），以提高泛化能力。

4. 执行 LoRA 微调任务

使用ms-swift框架启动 LoRA 微调，命令如下：

CUDA_VISIBLE_DEVICES=0 \ swift sft \ --model Qwen2.5-7B-Instruct \ --train_type lora \ --dataset self_cognition.json \ --torch_dtype bfloat16 \ --num_train_epochs 10 \ --per_device_train_batch_size 1 \ --per_device_eval_batch_size 1 \ --learning_rate 1e-4 \ --lora_rank 8 \ --lora_alpha 32 \ --target_modules all-linear \ --gradient_accumulation_steps 16 \ --eval_steps 50 \ --save_steps 50 \ --save_total_limit 2 \ --logging_steps 5 \ --max_length 2048 \ --output_dir output \ --system 'You are a helpful assistant.' \ --warmup_ratio 0.05 \ --dataloader_num_workers 4 \ --model_author swift \ --model_name swift-robot

4.1 关键参数说明

参数	说明
`--train_type lora`	使用 LoRA 进行低秩微调
`--dataset self_cognition.json`	指定自定义身份数据集
`--num_train_epochs 10`	小数据集需多轮训练以强化记忆
`--lora_rank 8`	LoRA 的秩，控制新增参数量
`--target_modules all-linear`	对所有线性层应用 LoRA，增强表达力
`--gradient_accumulation_steps 16`	补偿小 batch size 的梯度更新稳定性
`--output_dir output`	输出权重保存路径

4.2 训练过程观察

运行后你会看到类似日志输出：

Step: 50, Loss: 0.32, Learning Rate: 1e-4 Saving checkpoint to output/v2-2025xxxx-xxxx/checkpoint-50

整个训练过程大约持续8~12 分钟，完成后会在/root/output目录生成带时间戳的检查点文件夹。

5. 验证微调后的身份认知

微调结束后，使用生成的 LoRA 权重进行推理测试。

5.1 加载 Adapter 推理

替换实际路径后运行：

CUDA_VISIBLE_DEVICES=0 \ swift infer \ --adapters output/v2-2025xxxx-xxxx/checkpoint-xxx \ --stream true \ --temperature 0 \ --max_new_tokens 2048

5.2 输入测试问题

你是谁？

期望输出：

我是一个由 CSDN 迪菲赫尔曼 开发和维护的大语言模型。

再试几个变体问题：

“谁开发了你？” → 应答：“我由 CSDN 迪菲赫尔曼开发和维护。”
“你叫什么名字？” → 应答：“你可以叫我 Swift-Robot，也可以叫我 CSDN 助手。”

如果这些回答都符合预期，说明模型已经成功建立了新的身份认知。

6. 进阶技巧：混合数据微调保持通用能力

单纯用self_cognition.json微调可能导致模型“过度专注”于身份问题，影响其他任务表现。更优策略是采用混合数据训练，既注入身份认知，又保留通用能力。

6.1 使用多数据源联合训练

swift sft \ --model Qwen2.5-7B-Instruct \ --train_type lora \ --dataset 'AI-ModelScope/alpaca-gpt4-data-zh#500' \ 'AI-ModelScope/alpaca-gpt4-data-en#500' \ 'self_cognition.json' \ --torch_dtype bfloat16 \ --num_train_epochs 3 \ --per_device_train_batch_size 1 \ --learning_rate 1e-4 \ --lora_rank 8 \ --lora_alpha 32 \ --target_modules all-linear \ --gradient_accumulation_steps 16 \ --save_steps 50 \ --output_dir output_mixed \ --model_name swift-robot-mixed