反讽环境安装
云平台
租一台新的机子,4b模型跑在5090显卡上,可以选西北的机子,如果不想重新租也可以直接重置之前的机子
ps:不要选重庆的机子,因为之后好像端口映射不了。
这里选镜像的时候选如下就行
虚拟环境激活
开机后用ssh工具连接(只要能来连接ssh就可以,推荐xterminal)
连接到云服务器
在root目录下有个autodl-tmp,把所有重要数据都存在这个目录,避免关机重启被清除
启动后按照如下命令配置uv虚拟环境
pip install uv #先安装uv第三方库 cd /root/autodl-tmp #进入目录 mkdir Qwen #创建名叫Qwen文件夹 uv venv --python 3.12 #创建uv虚拟环境,并且指定python版本 source .venv/bin/activate #激活虚拟环境激活后最前面有个qwen标识,代表已经进入虚拟环境
模型下载
进入虚拟环境后,先安装modelscope库,用来拉取模型
uv pip install modelscope #在uv环境中安装modelscopemodelscope download --model Qwen/Qwen3.5-4B #使用modelscope库下载模型文件这里下载可能需要十分钟左右
因为下载路径未指定,所以应该是modelscope的默认路径:/root/.cache/modelscope/hub/models/Qwen/Qwen3.5-4B,下载成功后会在这个路径下存放所有的模型文件,需要把所有模型文件拷贝到/root/autodl-tmp/Qwen目录下,防止丢失
vllm推理器下载
下图是魔搭社区中关于vllm的官方下载方式,但是我试过了,不行,因为它默认下载最新版,和云服务器显卡以及cuda驱动之间可能存在冲突,需要下载指定版本0.18.1
uv pip istall vllm==0.18.1 --index-url https://mirrors.aliyun.com/pypi/simple/ #使用aliyun加速这边下载也要十分钟左右
启动模型
VLLM_USE_MODELSCOPE=true vllm serve /root/autodl-tmp/Qwen/Qwen35-4B --port 6006 --tensor-parallel-size 1 --max-model-len 262144 --language-model-only #将服务开放在6006端口,/root/autodl-tmp/Qwen/Qwen35-4B这个路径就是存放模型的路径,之后调用代码里面需要和这里保持一致第一次启动可能慢点,大概需要七八分钟,之后启动会快很多
出现如上界面代表启动成功,此时已经可以调用api服务了
autodl云平台会自动把内网的6006服务映射到公网上,如下图所示,调用代码中只需要将此链接复制就可以批量调用模型服务
关闭模型服务,只需要ctrl+C中断服务即可
脚本
因为是在云服务器上,所以不用的时候需要关机,所以下次启动的时候又需要重新进入虚拟环境,激活,然后再启动模型,比较繁琐
可以写一个bash脚本来一键启动,复制如下命令到start.sh
chmod +x start.sh(赋予脚本可执行的权限)
#!/bin/bash cd /root/autodl-tmp/Qwen source .venv/bin/activate VLLM_USE_MODELSCOPE=true vllm serve /root/autodl-tmp/CoASD \ #这里启动的模型是 --port 6006\ --tensor-parallel-size 1 \ --max-model-len 262144 \ --reasoning-parser qwen3 \ --language-model-only以后每次启动模型./start.sh即可启动
微调
这部分写期刊论文应该用不到,期刊论文就聚焦多智能体,把多智能体模型讲得高大上一点就行,不需要微调
但之后做其他项目可以尝试微调,所以这边还是写了一下。
安装步骤:
微调采用llamafactory平台,可以再建一个虚拟环境,避免各种库的版本冲突
cd /root/autodl-tmp mkdir llama uv venv source .venv/bin/activate之后安装都在虚拟环境中实现即可
安装教程参照:
LLaMA-Factory安装教程(详细版)_llamafactory安装-CSDN博客
