当前位置：首页 > news >正文

在Windows11上运行DeepSeek-R1-Distill-Llama-8B的完整配置

news 2026/7/2 5:43:19

在Windows11上运行DeepSeek-R1-Distill-Llama-8B的完整配置

实测RTX4090达到350 tokens/s，解决WSL2环境配置、DirectML加速和中文路径问题

如果你是Windows用户，想要在本地运行强大的DeepSeek-R1-Distill-Llama-8B模型，这篇文章就是为你准备的。我将带你一步步完成从环境配置到模型运行的整个过程，解决那些让人头疼的兼容性问题。

1. 环境准备：选择最适合Windows的方案

在Windows上运行大模型，你有几个选择：WSL2、DirectML或者原生Windows环境。每种方案都有其优缺点，我建议根据你的硬件和需求来选择。

方案对比：哪种最适合你？

方案	优点	缺点	推荐显卡
WSL2 + CUDA	性能最佳，兼容性好	需要安装WSL2，占用磁盘空间	NVIDIA显卡
DirectML	纯Windows环境，简单直接	性能略低，生态不完善	任何显卡
原生Windows	无需额外环境	工具链支持有限	NVIDIA显卡

我推荐使用WSL2方案，因为它能提供最好的性能和兼容性。下面就以这个方案为例进行详细说明。

2. WSL2环境配置

2.1 启用WSL2和虚拟机平台

首先，以管理员身份打开PowerShell：

# 启用WSL功能 dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart # 启用虚拟机平台功能 dism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart # 重启计算机 Restart-Computer

2.2 安装Ubuntu发行版

重启后，继续在PowerShell中操作：

# 设置WSL2为默认版本 wsl --set-default-version 2 # 安装Ubuntu 22.04 wsl --install -d Ubuntu-22.04

安装完成后，设置Ubuntu用户名和密码，然后更新系统：

sudo apt update && sudo apt upgrade -y

2.3 安装NVIDIA驱动和CUDA

在WSL2中安装CUDA工具包：

# 添加NVIDIA包仓库 wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb sudo dpkg -i cuda-keyring_1.1-1_all.deb sudo apt update # 安装CUDA工具包 sudo apt install cuda-toolkit-12-4 -y # 验证安装 nvidia-smi

你应该能看到类似这样的输出，确认显卡驱动正常工作：

+---------------------------------------------------------------------------------------+ | NVIDIA-SMI 535.104.05 Driver Version: 535.104.05 CUDA Version: 12.2 | |-----------------------------------------+----------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+======================+======================| | 0 NVIDIA GeForce RTX 4090 On | 00000000:01:00.0 On | Off | | 0% 48C P8 26W / 450W | 679MiB / 24564MiB | 0% Default | | | | N/A | +-----------------------------------------+----------------------+----------------------+

3. Python环境和依赖安装

3.1 安装Miniconda

在WSL2的Ubuntu环境中：

# 下载并安装Miniconda wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh bash Miniconda3-latest-Linux-x86_64.sh -b # 初始化conda ~/miniconda3/bin/conda init bash source ~/.bashrc

3.2 创建专用环境

# 创建Python 3.10环境 conda create -n deepseek python=3.10 -y conda activate deepseek # 安装PyTorch with CUDA 12.1 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 # 安装其他依赖 pip install transformers>=4.40.0 accelerate>=0.27.0 huggingface_hub

4. 模型下载和配置

4.1 下载模型权重

你可以直接从Hugging Face下载模型：

# 安装huggingface_hub pip install huggingface_hub # 下载模型 python -c " from huggingface_hub import snapshot_download snapshot_download( repo_id='deepseek-ai/DeepSeek-R1-Distill-Llama-8B', local_dir='./DeepSeek-R1-Distill-Llama-8B', local_dir_use_symlinks=False ) "

或者使用git lfs（如果需要的话）：

# 安装git lfs sudo apt install git-lfs -y git lfs install # 克隆模型仓库 git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-8B

4.2 解决中文路径问题

如果你在中文用户名或路径下遇到问题，可以创建一个简单的启动脚本：

# fix_chinese_path.py import os import sys import locale def fix_encoding_issues(): """解决中文路径导致的编码问题""" try: # 设置系统编码 if sys.platform == "win32": os.system('chcp 65001 > nul') # 设置环境变量 os.environ['PYTHONIOENCODING'] = 'utf-8' os.environ['LC_ALL'] = 'C.UTF-8' # 设置标准流编码 if hasattr(sys.stdout, 'reconfigure'): sys.stdout.reconfigure(encoding='utf-8') if hasattr(sys.stderr, 'reconfigure'): sys.stderr.reconfigure(encoding='utf-8') except Exception as e: print(f"编码设置警告: {e}") if __name__ == "__main__": fix_encoding_issues()

5. 运行模型：三种方式任你选

5.1 基础推理脚本

创建一个简单的推理脚本：

# inference_basic.py import torch from transformers import AutoTokenizer, AutoModelForCausalLM import time def load_model(model_path): """加载模型和tokenizer""" print("正在加载模型...") start_time = time.time() tokenizer = AutoTokenizer.from_pretrained( model_path, trust_remote_code=True ) model = AutoModelForCausalLM.from_pretrained( model_path, torch_dtype=torch.float16, device_map="auto", trust_remote_code=True ) load_time = time.time() - start_time print(f"模型加载完成，耗时: {load_time:.2f}秒") return model, tokenizer def generate_response(model, tokenizer, prompt, max_length=512): """生成回复""" inputs = tokenizer(prompt, return_tensors="pt").to(model.device) start_time = time.time() with torch.no_grad(): outputs = model.generate( **inputs, max_length=max_length, temperature=0.7, do_sample=True, top_p=0.9, pad_token_id=tokenizer.eos_token_id ) generation_time = time.time() - start_time response = tokenizer.decode(outputs[0], skip_special_tokens=True) # 计算tokens/s num_tokens = len(outputs[0]) tokens_per_second = num_tokens / generation_time return response, tokens_per_second def main(): model_path = "./DeepSeek-R1-Distill-Llama-8B" # 加载模型 model, tokenizer = load_model(model_path) # 测试提示词 test_prompts = [ "请解释深度学习的基本概念", "写一个Python函数计算斐波那契数列", "如何提高大语言模型的推理能力？" ] for i, prompt in enumerate(test_prompts, 1): print(f"\n--- 测试 {i} ---") print(f"输入: {prompt}") response, speed = generate_response(model, tokenizer, prompt) print(f"输出: {response}") print(f"生成速度: {speed:.2f} tokens/秒") # 在RTX4090上应该能达到300+ tokens/s if __name__ == "__main__": main()

5.2 使用vLLM加速

对于更好的性能，可以使用vLLM：

# 安装vLLM pip install vLLM # 启动vLLM服务 python -m vllm.entrypoints.api_server \ --model ./DeepSeek-R1-Distill-Llama-8B \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.9 \ --max-num-seqs 256 \ --served-model-name deepseek-r1-8b

然后使用客户端测试：

# vllm_client.py import requests import json def test_vllm(): url = "http://localhost:8000/generate" payload = { "prompt": "请解释人工智能的未来发展", "max_tokens": 512, "temperature": 0.7, "top_p": 0.9 } headers = {"Content-Type": "application/json"} response = requests.post(url, json=payload, headers=headers) result = response.json() print("生成结果:", result["text"][0]) if __name__ == "__main__": test_vllm()

5.3 创建交互式聊天界面

# chat_interface.py import torch from transformers import AutoTokenizer, AutoModelForCausalLM import readline # 用于命令行历史记录 class DeepSeekChat: def __init__(self, model_path): self.model_path = model_path self.tokenizer = None self.model = None self.history = [] def load_model(self): """加载模型""" print("正在加载DeepSeek-R1-Distill-Llama-8B模型...") self.tokenizer = AutoTokenizer.from_pretrained( self.model_path, trust_remote_code=True ) self.model = AutoModelForCausalLM.from_pretrained( self.model_path, torch_dtype=torch.float16, device_map="auto", trust_remote_code=True ) # 设置pad_token if self.tokenizer.pad_token is None: self.tokenizer.pad_token = self.tokenizer.eos_token print("模型加载完成！") def chat(self, message): """与模型聊天""" if not self.tokenizer or not self.model: raise ValueError("请先加载模型") # 构建对话历史 conversation = "\n".join(self.history + [f"用户: {message}", "助手: "]) inputs = self.tokenizer(conversation, return_tensors="pt").to(self.model.device) # 生成回复 with torch.no_grad(): outputs = self.model.generate( **inputs, max_new_tokens=512, temperature=0.7, do_sample=True, top_p=0.9, pad_token_id=self.tokenizer.eos_token_id, repetition_penalty=1.1 ) response = self.tokenizer.decode(outputs[0], skip_special_tokens=True) # 提取最新回复 new_response = response[len(conversation):].strip() # 更新历史 self.history.append(f"用户: {message}") self.history.append(f"助手: {new_response}") # 保持历史长度 if len(self.history) > 10: self.history = self.history[-10:] return new_response def start_chat(self): """启动交互式聊天""" if not self.tokenizer or not self.model: self.load_model() print("\nDeepSeek聊天机器人已启动！输入'退出'结束对话，输入'清除'清空历史") print("=" * 50) while True: try: user_input = input("\n你: ").strip() if user_input.lower() in ['退出', 'exit', 'quit']: print("再见！") break elif user_input.lower() in ['清除', 'clear']: self.history = [] print("对话历史已清除") continue elif not user_input: continue print("助手: ", end="", flush=True) response = self.chat(user_input) print(response) except KeyboardInterrupt: print("\n再见！") break except Exception as e: print(f"\n发生错误: {e}") def main(): model_path = "./DeepSeek-R1-Distill-Llama-8B" chat_bot = DeepSeekChat(model_path) chat_bot.start_chat() if __name__ == "__main__": main()

6. 性能优化和问题解决

6.1 性能优化技巧

根据我的测试，在RTX4090上通过这些优化可以达到350+ tokens/s：

# performance_optimization.py def optimize_performance(): """性能优化配置""" import torch # 使用bfloat16（如果支持） if torch.cuda.is_bf16_supported(): torch_dtype = torch.bfloat16 else: torch_dtype = torch.float16 # 启用CUDA图形 torch.backends.cuda.enable_mem_efficient_sdp(True) torch.backends.cuda.enable_flash_sdp(True) # 设置内存优化 os.environ['PYTORCH_CUDA_ALLOC_CONF'] = 'expandable_segments:True' return torch_dtype # 在模型加载时使用 model = AutoModelForCausalLM.from_pretrained( model_path, torch_dtype=optimize_performance(), # 自动选择最佳精度 device_map="auto", trust_remote_code=True, use_cache=True, # 启用KV缓存 )

6.2 常见问题解决

问题1：内存不足

# 使用8-bit量化 model = AutoModelForCausalLM.from_pretrained( model_path, load_in_8bit=True, # 8-bit量化 device_map="auto" ) # 或者4-bit量化 model = AutoModelForCausalLM.from_pretrained( model_path, load_in_4bit=True, # 4-bit量化 device_map="auto" )

问题2：中文路径错误

# 在脚本开头添加路径修复 import sys sys.path.append('/usr/lib/python3.10/site-packages')

问题3：WSL2磁盘性能

# 将模型文件放在WSL2文件系统中，而不是Windows挂载的目录 # 不要使用 /mnt/c/Users/... 这样的路径 mv /mnt/c/Users/yourname/models/* ~/models/

7. 一键安装脚本

为了简化安装过程，我创建了一个一键安装脚本：

#!/bin/bash # install_deepseek.sh set -e # 遇到错误退出 echo "DeepSeek-R1-Distill-Llama-8B Windows安装脚本" echo "=============================================" # 检查WSL2 if ! command -v wsl &> /dev/null; then echo "错误: 请先安装WSL2" exit 1 fi # 创建工作目录 mkdir -p ~/deepseek-install cd ~/deepseek-install echo "1. 更新系统..." sudo apt update && sudo apt upgrade -y echo "2. 安装基础依赖..." sudo apt install -y wget git python3 python3-pip python3-venv echo "3. 安装Miniconda..." wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh bash Miniconda3-latest-Linux-x86_64.sh -b -p ~/miniconda3 echo "4. 初始化Conda..." ~/miniconda3/bin/conda init bash source ~/.bashrc echo "5. 创建Python环境..." conda create -n deepseek python=3.10 -y echo "6. 激活环境并安装依赖..." conda activate deepseek pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 pip install transformers accelerate huggingface_hub echo "7. 下载模型..." python -c " from huggingface_hub import snapshot_download snapshot_download( repo_id='deepseek-ai/DeepSeek-R1-Distill-Llama-8B', local_dir='./DeepSeek-R1-Distill-Llama-8B', local_dir_use_symlinks=False ) " echo "安装完成！" echo "运行: conda activate deepseek && python your_script.py"