当前位置：首页 > news >正文

RTX 5080 环境配置与 LLaMA Factory 微调教程（Windows）

news 2026/3/26 17:01:47

RTX 5080 环境配置与 LLaMA Factory 微调 Llama-3.1-8B 完整指南

本文记录了在 Windows 11 下使用 RTX 5080 显卡，通过 LLaMA Factory 微调 Llama-3.1-8B-Instruct 模型，并转换为 GGUF 格式在 llama.cpp 中运行的全过程。包含环境配置、参数调整、常见错误及解决方案。

一、背景与硬件信息

显卡：NVIDIA GeForce RTX 5080（16GB 显存，计算能力sm_120）
系统：Windows 11
模型：Llama-3.1-8B-Instruct
微调方法：LoRA

RTX 5080 基于 Blackwell 架构，旧版 PyTorch（如 2.3.0）仅支持到 sm_90，直接训练会报错：

text

UserWarning: NVIDIA GeForce RTX 5080 with CUDA capability sm_120 is not compatible with the current PyTorch installation.

因此必须安装支持 sm_120 的 PyTorch Nightly 版本（CUDA 12.8）。

二、环境准备

2.1 安装 Miniconda（如已安装请跳过）

从官网下载并安装 Miniconda（Python 3.11 版本）。

2.2 创建并激活虚拟环境

powershell

conda create -n llamafactory python=3.11 -y conda activate llamafactory

2.3 安装支持 RTX 5080 的 PyTorch

powershell

pip install --upgrade pip pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128

验证安装：

python

python -c "import torch; print(torch.__version__); print(torch.cuda.is_available()); print(torch.cuda.get_device_capability())"

预期输出：

text

2.8.0.dev20260320+cu128 True (12, 0)

2.4 安装 LLaMA Factory

powershell

git clone https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory pip install -e ".[torch,metrics]"

若需量化，可同时安装bitsandbytes（Windows 下推荐使用bitsandbytes-windows），但本文训练时关闭量化，避免兼容性问题。

三、准备数据集

3.1 数据格式

使用messages格式，每行一个 JSON 对象。例如：

json

{"messages": [ {"role": "system", "content": "你是一个专业客服，不能说自己是AI。"}, {"role": "user", "content": "你好"}, {"role": "assistant", "content": "您好，请问有什么可以帮您？"} ]}

3.2 注册数据集

编辑LLaMA-Factory/data/dataset_info.json，添加自定义数据集：

json

"my_custom": { "file_name": "my_data.json", "format": "messages", "columns": { "messages": "messages" }, "tags": { "role_tag": "role", "content_tag": "content", "user_tag": "user", "assistant_tag": "assistant", "system_tag": "system" } }

四、训练参数设置（关键）

4.1 启动 WebUI

powershell

llamafactory-cli webui

浏览器访问http://localhost:7860。

4.2 模型加载

模型名称/路径：E:\LLM\LLaMAWork\models\Meta-Llama-3.1-8B-Instruct（本地路径）
量化等级：None（关闭量化）
提示模板：llama3

4.3 训练参数（避免常见错误）

参数	推荐值	说明
学习率	`2e-4`	LoRA 常用值
训练轮数	`3`	根据数据量调整
最大梯度范数	`1.0`	梯度裁剪
计算类型	`bf16`	RTX 5080 支持
截断长度	`1024`	客服对话足够，避免过大
批处理大小	`1`	8B 模型+16GB 显存
梯度累积	`4`	有效 batch size = 4
验证集比例	`0`	数据少时暂不划分
学习率调节器	`cosine`	稳定收敛

LoRA 参数：

LoRA 秩：16
LoRA 缩放系数：32
LoRA 随机丢弃：0.0
LoRA 作用模块：留空

4.4 开始训练

点击开始按钮。训练过程中可观察终端输出的 loss 值。

常见错误：梯度累积设为 1024 会导致训练极慢（1000 条数据需 10+ 小时）。正确值为4。

五、导出合并模型

训练完成后，需要将 LoRA 适配器与基础模型合并，得到完整的 Hugging Face 格式模型。

5.1 使用命令行导出（推荐）

powershell

llamafactory-cli export ` --model_name_or_path "E:\LLM\LLaMAWork\models\Meta-Llama-3.1-8B-Instruct" ` --adapter_name_or_path "E:\LLM\LLaMA-Factory\saves\Llama-3.1-8B-Instruct\lora\train_1" ` --export_dir "E:\LLM\llamaModels\exported_hf_model" ` --export_device auto

--export_device auto优先使用 GPU，若显存不足可改为cpu。
确保导出目录为空且磁盘剩余空间 ≥20 GB。

5.2 验证导出

导出成功后，目录下应包含config.json、model.safetensors、tokenizer.json等文件。

六、转换为 GGUF 格式（用于 llama.cpp）

6.1 准备 llama.cpp 工具

下载预编译版本或源码：

预编译（含量化工具）：llama.cpp Releases
源码（含转换脚本）：llama.cpp GitHub

建议：将二进制工具（如llama-quantize.exe）和源码中的convert_hf_to_gguf.py放在同一目录，方便操作。

6.2 转换 Hugging Face 模型为 GGUF（FP16）

powershell

cd E:\LLM\llama.cpp-src # 进入源码目录 python convert_hf_to_gguf.py "E:\LLM\llamaModels\exported_hf_model" --outfile "E:\LLM\llamaModels\new\llama-3.1-8b-custom.gguf" --outtype f16

6.3 量化为 q4_k_m

powershell

cd E:\LLM\llama.cpp # 进入二进制目录 .\llama-quantize.exe "E:\LLM\llamaModels\new\llama-3.1-8b-custom.gguf" "E:\LLM\llamaModels\new\llama-3.1-8b-custom_Q4_K_M.gguf" q4_k_m

量化后文件约 5-6 GB，适合本地推理。

七、在 llama.cpp 中运行

7.1 交互式对话

powershell

.\main.exe -m "E:\LLM\llamaModels\new\llama-3.1-8b-custom_Q4_K_M.gguf" --interactive

7.2 单次生成

powershell

.\main.exe -m "E:\LLM\llamaModels\new\llama-3.1-8b-custom_Q4_K_M.gguf" -p "你好" -n 128

八、常见问题与解决方法

问题	原因	解决方案
段错误`3221225477`	PyTorch 不支持 RTX 5080	安装 Nightly 版本
`bitsandbytes`缺失	量化选项未关闭	训练时关闭量化（`量化等级=None`）
训练集为空	验证集比例过大且数据少	将验证集比例设为`0`
训练极慢（10+ 小时）	梯度累积设置过大（如 1024）	改为4
导出时连接断开	内存不足	改用`--export_device cpu`
`convert_hf_to_gguf.py`找不到	未在正确目录或未下载	从 GitHub 下载脚本

九、一键脚本（PowerShell）

将以下内容保存为export_and_convert.ps1，右键“使用 PowerShell 运行”：

powershell

# 1. 导出合并模型 llamafactory-cli export ` --model_name_or_path "E:\LLM\LLaMAWork\models\Meta-Llama-3.1-8B-Instruct" ` --adapter_name_or_path "E:\LLM\LLaMA-Factory\saves\Llama-3.1-8B-Instruct\lora\train_1" ` --export_dir "E:\LLM\llamaModels\exported_hf_model" ` --export_device auto # 2. 转换为 GGUF (FP16) cd E:\LLM\llama.cpp-src python convert_hf_to_gguf.py "E:\LLM\llamaModels\exported_hf_model" --outfile "E:\LLM\llamaModels\new\llama-3.1-8b-custom.gguf" --outtype f16 # 3. 量化为 q4_k_m cd E:\LLM\llama.cpp .\llama-quantize.exe "E:\LLM\llamaModels\new\llama-3.1-8b-custom.gguf" "E:\LLM\llamaModels\new\llama-3.1-8b-custom_Q4_K_M.gguf" q4_k_m Write-Host "完成！模型路径: E:\LLM\llamaModels\new\llama-3.1-8b-custom_Q4_K_M.gguf"