当前位置: 首页 > news >正文

生产环境离线部署大模型

一、普通服务器升级ai服务器

1、服务器插槽装载8张INVIDA RTX 4090的显卡(单显卡48GB)

2、在INVIDA官网下载安装NVIDIA驱动NVIDIA-Linux-x86_64-550.120.run

//服务器上禁用开源驱动 nouveau

echo "blacklist nouveau" >> /etc/modprobe.d/blacklist-nouveau.conf

echo "options nouveau modeset=0" >> /etc/modprobe.d/blacklist-nouveau.conf

update-initramfs -u

//重启服务器

reboot

//安装invida的驱动

./NVIDIA-Linux-x86_64-550.120.run --no-opengl-files --no-drm

//安装完成后再重启服务器,然后验证

nvidia-smi

出现8张显卡详情则说明安装成功

3、在INVIDA官网下载安装cuda_12.1.0_530.30.02_linux.run

//安装

./cuda_12.1.0_530.30.02_linux.run

//安装时一定取消勾选 Driver,只装 Toolkit

//配置环境

echo "export PATH=/usr/local/cuda-12.1/bin:$PATH" >> ~/.bashrc

echo "export LD_LIBRARY_PATH=/usr/local/cuda-12.1/lib64:$LD_LIBRARY_PATH" >> ~/.bashrc

source ~/.bashrc

//验证

ncvv -V

4、下载安装其他环境

//先安装python

tar -zxvf Python-3.10.14.tgz cd Python-3.10.14

./configure --prefix=/usr/local/python310

make && make install

ln -s /usr/local/python310/bin/python3 /usr/bin/python

ln -s /usr/local/python310/bin/pip3 /usr/bin/pip

//安装下载好的离线包

pip install --no-index --find-links=. torch-2.4.0+cu121-cp310-cp310-linux_x86_64.whl

pip install --no-index --find-links=. torchvision-0.19.0+cu121-cp310-cp310-linux_x86_64.whl pip install --no-index --find-links=. torchaudio-2.4.0+cu121-cp310-cp310-linux_x86_64.whl pip install --no-index --find-links=. vllm-0.7.2+cu121-cp310-cp310-linux_x86_64.whl

pip install --no-index --find-links=. auto_gptq-0.7.1+cu121-cp310-cp310-linux_x86_64.whl pip install --no-index --find-links=. optimum-1.26.0-py3-none-any.whl

pip install --no-index --find-links=. transformers-4.48.0-py3-none-any.whl

pip install --no-index --find-links=. tokenizers-0.19.1-cp310-cp310-manylinux_2_17_x86_64.whl

pip install --no-index --find-links=. sentencepiece-0.2.0-cp310-cp310-manylinux_2_17_x86_64.whl

pip install --no-index --find-links=. protobuf-4.25.3-cp310-cp310-manylinux2014_x86_64.whl

5、运行模型

cd /data cat << 'EOF' > start_235b.sh

CUDA_VISIBLE_DEVICES=0,1,2,3 \

python -m vllm.entrypoints.openai.api_server \

--model /data/models/tclf90_Qwen3-235B-A22B-Thinking-2507-GPTQ-Int4-Int8Mix \

--served-model-name qwen3-235b \

--tensor-parallel-size 4 \

--max-model-len 8192 \

--gpu-memory-utilization 0.95 \

--trust-remote-code \

--host 0.0.0.0 \

--port 8050

EOF chmod +x start_235b.sh nohup ./start_235b.sh > run.log 2>&1 &

6、直接测试

curl http://127.0.0.1:8085/v1/chat/completions \

-H "Content-Type: application/json" \

-d '{ "model": "qwen3-235b", "messages": [ {"role": "user", "content": "你好,我是一名AI工程师,正在测试Qwen3-235B模型"} ], "temperature": 0.7, "max_tokens": 1024 }'

7、在前端界面上实现智能对话

//直接用开源的ChatGPT-Next-Web对接你的8050端口即可

//或者开源的openwebui,然后调用大模型的接口

# 下载WebUI离线包,传到服务器后启动

cd /data unzip chatgpt-next-web-v2.16.1-linux-amd64.zip

//启动

PORT=3000 BASE_URL=http://127.0.0.1:8050 API_KEY=sk-123456 MODEL=qwen3-235b ./chatgpt-next-web

//然后直接访问http://服务器IP:3000

*知识点注释

1、显卡与cpu

显卡天生并行计算,适合大模型

cpu串行计算

2、一台普通服务器如何变成ai服务器

只需要加8张NVIDIA RTX 4090(每张显卡48GB)的显卡

就立马变成一台顶级的ai服务器

但是注意该服务器一定得解决一下问题:一般服务器只有2个左右插槽,以及散热问题,以及大功率电源

http://www.jsqmd.com/news/636619/

相关文章:

  • 通达信筹码大单捉妖指标实战解析:主副图组合精准捕捉庄家动向
  • 为什么你的AIAgent一换场景就失智?揭秘迁移学习中被忽略的3类隐式分布偏移
  • 为什么你的网络总抽风?可能是这个ARP协议漏洞在捣鬼(含防御方案)
  • Calico IPIP 使用指南旅
  • 4月14日直播丨CANNBot 开发进阶:Ascend C算子开发实操
  • Agent 才 1 岁多,市场已经要求 5 年以上经验了
  • KonkerESP8266嵌入式MQTT/HTTP物联网通信框架解析
  • 告别虚拟机卡顿:用WSL2+Docker高效搭建海思Hi3516CV610交叉编译环境
  • 从洗碗到叠衣:用RECAP算法让机器人学会‘吃一堑长一智’
  • 遥感数字图像处理教程【2.2】
  • 试试建几个 GPTs,看看有没有什么用 - AI
  • 国内环境使用Claude Code的可行路径与聚合平台模式说明
  • 2026届学术党必备的十大降AI率神器实测分析
  • 告别重复代码:Vercel 无服务函数中的高阶函数封装技巧(含认证/日志实战)
  • 第16章 项目干系人管理
  • 如何解决Kirikiri游戏资源加密难题:全功能KirikiriTools实战指南
  • AIAgent架构可信度认证白皮书(含12项可审计指标+开源测试套件v2.1)
  • VMware vCenter+FC SAN实战:从零搭建企业级虚拟化平台的5个关键步骤
  • 2026届必备的降AI率神器横评
  • STM32F4实战:用PLL锁相环优化FOC无感电机控制,告别滑膜观测器的角度抖动
  • 数据结构优化实战:提升MogFace-large模型推理效率的内存管理技巧
  • 华硕笔记本可维修性最佳,苹果最差
  • 3大技巧:如何用D3KeyHelper彻底告别暗黑3重复操作疲劳
  • 深入解析A系电商App的doCommandNative:从JNI到Frida实战
  • Flowable流程定义怎么存?MySQL+MongoDB混合存储方案实战(附SpringBoot3+Vue3代码)
  • 5分钟快速创建专业README文档的终极指南
  • IEEE Robotics and Automation Letters投稿避坑指南:LaTeX排版从模板安装到BibTeX引用的完整流程
  • 5分钟解决YOLOv10安装难题:新手必看终极部署指南
  • 别再手动看评论了!用Python+Seaborn+Pyecharts自动分析电商评价(附完整代码)
  • 日志丢失、Trace断链、Metric失真,AIAgent监控盲区全解析,资深SRE团队内部调试清单首次流出