当前位置：首页 > news >正文

VMware虚拟机中部署AI模型：Ubuntu系统安装与Qwen3-4B-Thinking配置指南

news 2026/6/23 12:43:03

VMware虚拟机中部署AI模型：Ubuntu系统安装与Qwen3-4B-Thinking配置指南

1. 准备工作与环境搭建

在开始之前，我们需要准备好必要的软件和硬件资源。首先确保你的主机满足以下要求：

硬件配置：建议至少16GB内存（运行Qwen3-4B-Thinking需要8GB以上空闲内存），50GB可用磁盘空间，支持虚拟化的CPU
软件准备：下载最新版VMware Workstation Player（免费版即可）和Ubuntu 22.04 LTS镜像文件

安装VMware Workstation Player的过程非常简单，基本上就是"下一步"到底。这里有个小技巧：安装完成后，建议重启一次主机，确保虚拟化功能完全启用。

2. 创建Ubuntu虚拟机

2.1 新建虚拟机向导

打开VMware后，点击"创建新虚拟机"，选择"自定义"安装方式。关键配置步骤如下：

硬件兼容性：选择最新版本的Workstation
操作系统安装：选择"稍后安装操作系统"
客户机操作系统：选择Linux → Ubuntu 64位
虚拟机名称和位置：建议使用"Ubuntu_AI"这类有意义的名称
处理器配置：至少2核（4核更佳）
内存分配：建议8GB起步（运行大模型需要）
网络类型：NAT模式最方便
磁盘空间：至少40GB，选择"将虚拟磁盘存储为单个文件"

2.2 安装Ubuntu系统

挂载下载好的Ubuntu ISO镜像，启动虚拟机。安装过程中有几个关键点需要注意：

分区方案：新手建议选择"清除整个磁盘并安装Ubuntu"
用户名设置：记住你设置的密码，后续sudo命令需要
安装OpenSSH：勾选此选项方便后续远程连接
最小安装：建议选择"正常安装"，包含图形界面更友好

安装完成后，建议先执行系统更新：

sudo apt update && sudo apt upgrade -y

3. 配置AI开发环境

3.1 安装基础工具

首先安装一些必要的开发工具：

sudo apt install -y git curl wget build-essential python3-pip python3-venv

3.2 配置CUDA环境

Qwen3-4B-Thinking需要CUDA加速，以下是配置步骤：

检查NVIDIA驱动是否安装：

nvidia-smi

如果未安装，先安装驱动：

sudo ubuntu-drivers autoinstall

安装CUDA Toolkit（以CUDA 12.1为例）：

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600 wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.deb sudo dpkg -i cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.deb sudo cp /var/cuda-repo-ubuntu2204-12-1-local/cuda-*-keyring.gpg /usr/share/keyrings/ sudo apt-get update sudo apt-get -y install cuda

添加环境变量到~/.bashrc：

echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc source ~/.bashrc

3.3 创建Python虚拟环境

为避免依赖冲突，建议为AI项目创建独立环境：

python3 -m venv ~/ai_env source ~/ai_env/bin/activate

4. 部署Qwen3-4B-Thinking模型

4.1 安装依赖库

激活虚拟环境后，安装必要的Python包：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 pip install transformers accelerate sentencepiece

4.2 下载模型权重

可以使用Hugging Face提供的模型：

git lfs install git clone https://huggingface.co/Qwen/Qwen3-4B-Thinking

如果网络问题导致下载困难，可以考虑先下载到主机，再通过共享文件夹传输到虚拟机。

4.3 运行推理测试

创建一个简单的测试脚本test_qwen.py：

from transformers import AutoModelForCausalLM, AutoTokenizer model_path = "Qwen3-4B-Thinking" tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( model_path, device_map="auto", trust_remote_code=True ).eval() response, history = model.chat(tokenizer, "你好，介绍一下你自己", history=[]) print(response)

运行脚本：

python test_qwen.py

首次运行会需要一些时间加载模型。如果一切正常，你应该能看到模型的自我介绍。

5. 常见问题与优化建议

在实际部署过程中，可能会遇到以下典型问题：

内存不足：如果模型无法加载，尝试减小device_map的范围，或者使用量化版本：

model = AutoModelForCausalLM.from_pretrained( model_path, device_map="auto", trust_remote_code=True, torch_dtype=torch.float16 ).eval()

磁盘空间不足：模型文件大约需要8GB空间，确保虚拟机有足够空间。可以在VMware设置中扩展磁盘，但需要小心操作。

性能优化：对于持续使用，建议：

安装flash-attention提升推理速度
使用vLLM等优化推理框架
考虑模型量化减小内存占用

网络问题：如果从Hugging Face下载困难，可以：

使用国内镜像源
先在主机下载，再通过共享文件夹传输
使用wget断点续传功能

6. 总结与下一步

通过本教程，我们完成了从零开始在VMware虚拟机中搭建Ubuntu系统，并成功部署Qwen3-4B-Thinking模型的全过程。整体来看，VMware提供了很好的隔离环境，特别适合需要同时进行多种开发任务的场景。Ubuntu 22.04作为稳定的Linux发行版，配合CUDA环境能够很好地支持AI模型的运行。

实际体验下来，Qwen3-4B-Thinking在4B参数规模下表现出色，响应速度在消费级GPU上也能接受。如果你刚开始接触大模型本地部署，这套方案是个不错的起点。后续可以尝试更复杂的应用场景，比如构建RAG系统或者微调模型。