当前位置: 首页 > news >正文

单端口部署多模型最简单解决方案(vllm sglang 等均适用)

TLDR

将不同模型部署在不同端口,使用litellm的proxy功能统一管理转发

步骤1:本地部署好模型在若干端口上

vllm serve Qwen/Qwen3.5-2B --port 8031 vllm serve Qwen/Qwen3.5-4B --port 8032 vllm serve Qwen/Qwen3.5-9B --port 8033

步骤2:安装配置litellm

安装

# 选项1:使用uv安装 uv tool install 'litellm[proxy]' # 选项2:脚本直接安装 curl -fsSL https://raw.githubusercontent.com/BerriAI/litellm/main/scripts/install.sh | sh

配置litellm

当前目录创建litellm_config.yaml,写入以下内容

model_list: - model_name: Qwen/Qwen3.5-4B litellm_params: model: openai/Qwen/Qwen3.5-4B # add openai/ prefix to route as OpenAI provider api_base: http://localhost:8031/v1 api_key: none - model_name: Qwen/Qwen3.5-2B litellm_params: model: openai/Qwen/Qwen3.5-2B # add openai/ prefix to route as OpenAI provider api_base: http://localhost:8032/v1 api_key: none - model_name: Qwen/Qwen3.5-9B litellm_params: model: openai/Qwen/Qwen3.5-9B # add openai/ prefix to route as OpenAI provider api_base: http://localhost:8033/v1 api_key: none

步骤3:用你需要的端口启动litellm

litellm --config ./litellm_config.yaml --port 8088

然后如下,之后直接使用8088端口就可以访问部署的三个模型了

INFO: Started server process [214508] INFO: Waiting for application startup. ██╗ ██╗████████╗███████╗██╗ ██╗ ███╗ ███╗ ██║ ██║╚══██╔══╝██╔════╝██║ ██║ ████╗ ████║ ██║ ██║ ██║ █████╗ ██║ ██║ ██╔████╔██║ ██║ ██║ ██║ ██╔══╝ ██║ ██║ ██║╚██╔╝██║ ███████╗██║ ██║ ███████╗███████╗███████╗██║ ╚═╝ ██║ ╚══════╝╚═╝ ╚═╝ ╚══════╝╚══════╝╚══════╝╚═╝ ╚═╝ Thank you for using LiteLLM! - Krrish & Ishaan LiteLLM: Proxy initialized with Config, Set models: Qwen/Qwen3.5-4B Qwen/Qwen3.5-2B Qwen/Qwen3.5-9B INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:8088 (Press CTRL+C to quit)
http://www.jsqmd.com/news/1083058/

相关文章:

  • 2026培训机构管理软件能实现报名缴费排课考勤一体化吗?乔拓云用全链路系统给出标准答案
  • 打破垄断:国产七位半数字多用表AMC93200的技术突破与应用
  • 5分钟掌握mootdx:Python通达信数据获取的终极解决方案
  • AI幻觉治理实战:DeepRAG+RAT+神经符号混合架构
  • 江西高职单招机构怎么选?大圣学成十年本土深耕,真实录取数据看得见
  • 手机端终极镜像提取指南:3分钟搞定Android系统分区提取
  • 5G通讯FPC板设计:射频信号与机械可靠性优化
  • ComfyUI ControlNet Aux终极指南:40+种AI图像预处理技术快速掌握
  • 智能XAPK解析引擎:一站式解决Android应用格式兼容性
  • 智慧气象盒子4G云连接方案与优化实践
  • 如何打造你的专属虚拟桌面伴侣:3个简单步骤使用Mate Engine
  • 仅限内部流传的IDEA Spring Boot项目初始化Checklist(含12项必检项+自动校验脚本,限时开放下载)
  • 从晶体表示与Breuil-Mézard猜想看对称性分解与模性约束
  • Nintendo Switch游戏文件管理终极指南:用NSC_BUILDER轻松管理你的游戏库
  • 论文 deadline 只剩 3 天?Gradpaper 极简操作 5 分钟填参数,半天出合格初稿
  • Mermaid在线编辑器终极指南:3分钟创建专业流程图和图表
  • Hermes 爱马仕智能体安装 极简解压启动方案
  • 谷歌不收录中文网站语言设置:改错这3个地方流量直接掉没
  • 计算机毕业设计之基于微信小程序的云打印系统设计与实现
  • 技术求助实战指南:从树莓派相机栈调试到高效社区协作
  • 5分钟快速指南:如何安全高效地管理游戏DLSS版本升级
  • PX4学习笔记(二)从芯片复位 → px4_main 完整启动时序(文字流程图)
  • STM32CubeMX中FATFS文件系统创建失败的排查与解决
  • leetcode 3737. 统计主要元素子数组数目 I 中等
  • 基于C#与WPF构建高效串口调试工具:从通信原理到协议解析实践
  • 免费虚拟桌面伴侣终极指南:Mate Engine打造你的专属二次元伙伴
  • 智慧铁路巡检轨道探伤钢轨缺陷检测数据集VOC+YOLO格式1464张6类别
  • 企业级与个人开发者AI大模型API聚合平台选型指南:生产环境下的技术路径对比
  • 2026年高考志愿填报服务:看3维度辨靠谱性
  • 抖音无水印视频批量下载终极指南:3分钟掌握完整解决方案