当前位置：首页 > news >正文

生产环境离线部署大模型

news 2026/6/2 0:24:00

一、普通服务器升级ai服务器

1、服务器插槽装载8张INVIDA RTX 4090的显卡(单显卡48GB)

2、在INVIDA官网下载安装NVIDIA驱动NVIDIA-Linux-x86_64-550.120.run

//服务器上禁用开源驱动 nouveau
echo "blacklist nouveau" >> /etc/modprobe.d/blacklist-nouveau.conf
echo "options nouveau modeset=0" >> /etc/modprobe.d/blacklist-nouveau.conf
update-initramfs -u
//重启服务器
reboot
//安装invida的驱动
./NVIDIA-Linux-x86_64-550.120.run --no-opengl-files --no-drm
//安装完成后再重启服务器，然后验证
nvidia-smi
出现8张显卡详情则说明安装成功

3、在INVIDA官网下载安装cuda_12.1.0_530.30.02_linux.run

//安装
./cuda_12.1.0_530.30.02_linux.run
//安装时一定取消勾选 Driver，只装 Toolkit
//配置环境
echo "export PATH=/usr/local/cuda-12.1/bin:$PATH" >> ~/.bashrc
echo "export LD_LIBRARY_PATH=/usr/local/cuda-12.1/lib64:$LD_LIBRARY_PATH" >> ~/.bashrc
source ~/.bashrc
//验证
ncvv -V

4、下载安装其他环境

//先安装python
tar -zxvf Python-3.10.14.tgz cd Python-3.10.14
./configure --prefix=/usr/local/python310
make && make install
ln -s /usr/local/python310/bin/python3 /usr/bin/python
ln -s /usr/local/python310/bin/pip3 /usr/bin/pip
//安装下载好的离线包
pip install --no-index --find-links=. torch-2.4.0+cu121-cp310-cp310-linux_x86_64.whl
pip install --no-index --find-links=. torchvision-0.19.0+cu121-cp310-cp310-linux_x86_64.whl pip install --no-index --find-links=. torchaudio-2.4.0+cu121-cp310-cp310-linux_x86_64.whl pip install --no-index --find-links=. vllm-0.7.2+cu121-cp310-cp310-linux_x86_64.whl
pip install --no-index --find-links=. auto_gptq-0.7.1+cu121-cp310-cp310-linux_x86_64.whl pip install --no-index --find-links=. optimum-1.26.0-py3-none-any.whl
pip install --no-index --find-links=. transformers-4.48.0-py3-none-any.whl
pip install --no-index --find-links=. tokenizers-0.19.1-cp310-cp310-manylinux_2_17_x86_64.whl
pip install --no-index --find-links=. sentencepiece-0.2.0-cp310-cp310-manylinux_2_17_x86_64.whl
pip install --no-index --find-links=. protobuf-4.25.3-cp310-cp310-manylinux2014_x86_64.whl

5、运行模型

cd /data cat << 'EOF' > start_235b.sh
CUDA_VISIBLE_DEVICES=0,1,2,3 \
python -m vllm.entrypoints.openai.api_server \
--model /data/models/tclf90_Qwen3-235B-A22B-Thinking-2507-GPTQ-Int4-Int8Mix \
--served-model-name qwen3-235b \
--tensor-parallel-size 4 \
--max-model-len 8192 \
--gpu-memory-utilization 0.95 \
--trust-remote-code \
--host 0.0.0.0 \
--port 8050
EOF chmod +x start_235b.sh nohup ./start_235b.sh > run.log 2>&1 &

6、直接测试

curl http://127.0.0.1:8085/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{ "model": "qwen3-235b", "messages": [ {"role": "user", "content": "你好，我是一名AI工程师，正在测试Qwen3-235B模型"} ], "temperature": 0.7, "max_tokens": 1024 }'

7、在前端界面上实现智能对话

//直接用开源的ChatGPT-Next-Web对接你的8050端口即可
//或者开源的openwebui,然后调用大模型的接口
# 下载WebUI离线包，传到服务器后启动
cd /data unzip chatgpt-next-web-v2.16.1-linux-amd64.zip
//启动
PORT=3000 BASE_URL=http://127.0.0.1:8050 API_KEY=sk-123456 MODEL=qwen3-235b ./chatgpt-next-web
//然后直接访问http://服务器IP:3000

*知识点注释

1、显卡与cpu

显卡天生并行计算，适合大模型

cpu串行计算

2、一台普通服务器如何变成ai服务器

只需要加8张NVIDIA RTX 4090(每张显卡48GB)的显卡

就立马变成一台顶级的ai服务器

但是注意该服务器一定得解决一下问题:一般服务器只有2个左右插槽，以及散热问题，以及大功率电源

查看全文

http://www.jsqmd.com/news/636619/