当前位置: 首页 > news >正文

LiteLLM + vLLM模型调用引擎架构

二、Docker 安装 vLLM

docker-compose.yml

version: '3.7' services: vllm-qwen: image: vllm/vllm-openai:latest container_name: vllm-qwen runtime: nvidia environment: - NVIDIA_VISIBLE_DEVICES=all volumes: - ./models:/models command: > --model /models/qwen/Qwen2.5-0.5B-Instruct --host 0.0.0.0 --port 8000 --gpu-memory-utilization 0.5 --max-model-len 1024 ports: - "8000:8000" litellm: image: ghcr.io/berriai/litellm:main-latest container_name: litellm volumes: - ./config.yaml:/app/config.yaml command: --config /app/config.yaml ports: - "4000:4000" depends_on: - vllm-qwen

把模型放到models

LiteLLM 配置config.yaml

model_list: - model_name: qwen litellm_params: model: openai//models/qwen/Qwen2.5-0.5B-Instruct # 使用 vLLM 返回的完整模型 ID api_base: http://vllm-qwen:8000/v1 api_key: none

启动服务

docker compose up -d

此过程比较慢,因为下载的比较大。

测试 vLLM

curl http://localhost:8000/v1/models

测试 LiteLLM

curl http://localhost:4000/v1/models

整体测试:

curl http://localhost:4000/v1/chat/completions -H "Content-Type: application/json" -d "{\"model\":\"qwen\",\"messages\":[{\"role\":\"user\",\"content\":\"你好\"}]}"

python代码测试:

from openai import OpenAI client = OpenAI( api_key="anything", base_url="http://10.61.104.181:4000/v1" ) response = client.chat.completions.create( model="qwen", messages=[ {"role": "user", "content": "你好,讲个笑话"} ] ) print(response.choices[0].message.content)

增加多个模型(暂未尝试)

http://www.jsqmd.com/news/500168/

相关文章:

  • Android 通过Http实现一个网络速率检测工具
  • python http请求报错SSL
  • 虚拟内存的运作
  • 手机聊天记录等数据恢复探讨
  • Ansys Zemax | 在OpticStudio中模拟高阶激光光束
  • 人工智能三级好考吗?考试难度解析
  • 知识付费开发到底难不难?小白也能看懂的搭建流程
  • 2026年国产算力产业指南:自主软硬件+开源生态,产业链核心标的梳理
  • 多卡聚合通信在无人快递车中的应用价值
  • Redacted介绍(脱敏 / 涂黑 / 删改后公开,指对外展示或记录信息时,把敏感内容隐藏或替换,只保留必要信息用于排查问题、审计或协作沟通)敏感信息、马赛克
  • AI创富实战手册:从0到1的五大落地路径
  • H3CNE--12.生成树协议
  • 动态规划_最长湍流子数组_C++
  • 向量数据库选型
  • 随着OpenClaw被广泛应用,是否会涌现出大量利用其自动化能力进行网络攻击的法律灰色地带案件?
  • OpenClaw 是放大器,不是发动机——AI Agent 天花板之前的那个乘数
  • 技术干货版|HLS 流媒体调试必备:m3u8live.cn 在线 M3U8 播放器,免安装一键验流
  • 前端开发中的常用工具函数(四)
  • 网页版学习通后台自动刷课(可跳过练习版本)【edge】
  • 在Windows下配置针对WSL的cc-switch
  • 牛津大学发明“噪音魔法师“:一步生成高质量图像的全新AI技术
  • 【超全】基于微信小程序的电影院选座系统【包括源码+文档+调试】
  • java-继承
  • 关于 Cactus-react-native 构建问题记录
  • 2026论文降AI率工具怎么选?实测对比后我只认这一款
  • 用腾讯小龙虾装原装小龙虾。全网最快装小龙虾邪修大法,小学生都能装。
  • 让软件工程师更轻松的6个工具
  • MCP Tool 实现进度通知
  • 【设计模式】依赖注入控制反转
  • 体验完阿里「悟空」,我想把电脑里的龙虾换掉了,是真NB!