当前位置：首页 > news >正文

ms-swift保姆级教程：从安装到微调，小白也能轻松上手

news 2026/5/12 8:22:22

ms-swift保姆级教程：从安装到微调，小白也能轻松上手

1. 前言：为什么选择ms-swift？

如果你正在寻找一个简单易用的大模型微调框架，ms-swift可能是目前最好的选择之一。这个由魔搭社区推出的开源工具，让大模型微调变得像搭积木一样简单。

想象一下，你只需要几行命令，就能在消费级显卡上微调Qwen、Llama等主流大模型，还能轻松实现多模态训练、强化学习等高级功能。这就是ms-swift的魅力所在。

2. 环境准备与安装

2.1 硬件要求

ms-swift对硬件要求非常友好：

最低配置：NVIDIA显卡（如RTX 3090/4090）
推荐配置：A100/H100等专业显卡
显存要求：7B模型微调仅需9GB显存（使用QLoRA）

2.2 安装步骤

安装ms-swift非常简单，只需执行以下命令：

pip install ms-swift

如果需要使用最新的开发版本：

pip install git+https://github.com/modelscope/ms-swift.git

3. 快速开始：10分钟微调Qwen2.5-7B

让我们用一个简单的例子，快速体验ms-swift的强大功能。

3.1 准备微调命令

在单卡3090上对Qwen2.5-7B-Instruct进行自我认知微调：

CUDA_VISIBLE_DEVICES=0 \ swift sft \ --model Qwen/Qwen2.5-7B-Instruct \ --train_type lora \ --dataset 'AI-ModelScope/alpaca-gpt4-data-zh#500' \ 'AI-ModelScope/alpaca-gpt4-data-en#500' \ 'swift/self-cognition#500' \ --torch_dtype bfloat16 \ --num_train_epochs 1 \ --per_device_train_batch_size 1 \ --per_device_eval_batch_size 1 \ --learning_rate 1e-4 \ --lora_rank 8 \ --lora_alpha 32 \ --target_modules all-linear \ --gradient_accumulation_steps 16 \ --eval_steps 50 \ --save_steps 50 \ --save_total_limit 2 \ --logging_steps 5 \ --max_length 2048 \ --output_dir output \ --system 'You are a helpful assistant.' \ --warmup_ratio 0.05 \ --dataloader_num_workers 4 \ --model_author swift \ --model_name swift-robot

3.2 参数说明

--model: 指定要微调的模型
--train_type: 微调方式，这里使用LoRA
--dataset: 使用的数据集
--lora_rank: LoRA的秩大小
--output_dir: 输出目录

4. 进阶使用：自定义数据集微调

4.1 准备自定义数据集

ms-swift支持自定义数据集，只需按照以下格式准备JSON文件：

[ { "instruction": "解释什么是人工智能", "input": "", "output": "人工智能是..." }, { "instruction": "写一首关于春天的诗", "input": "", "output": "春风拂面..." } ]

4.2 使用自定义数据集微调

准备好数据集后，只需修改--dataset参数：

CUDA_VISIBLE_DEVICES=0 \ swift sft \ --model Qwen/Qwen2.5-7B-Instruct \ --train_type lora \ --dataset /path/to/your/dataset.json \ ...

5. 模型推理与部署

5.1 使用训练好的模型进行推理

训练完成后，可以使用以下命令进行推理：

CUDA_VISIBLE_DEVICES=0 \ swift infer \ --adapters output/vx-xxx/checkpoint-xxx \ --stream true \ --temperature 0 \ --max_new_tokens 2048

5.2 合并LoRA权重并使用vLLM加速

CUDA_VISIBLE_DEVICES=0 \ swift infer \ --adapters output/vx-xxx/checkpoint-xxx \ --stream true \ --merge_lora true \ --infer_backend vllm \ --vllm_max_model_len 8192 \ --temperature 0 \ --max_new_tokens 2048