当前位置: 首页 > news >正文

【vLLM】使用vLLM部署Qwen3-VL-30B-A3B-Instruct

  • 环境与设备配置:H20*8(96G)
MODEL_ID=Qwen/Qwen3-VL-30B-A3B-Instruct
MODEL_NAME=Qwen3-VL-30B-A3B-Instruct
python3 -m vllm.entrypoints.openai.api_server \--model  $MODEL_ID \--served-model-name $MODEL_NAME \--tensor-parallel-size 8 \--mm-encoder-tp-mode data \--limit-mm-per-prompt.video 0 \--mm-processor-cache-type shm \--enable-expert-parallel \--host 0.0.0.0 \--port 22002 \--dtype bfloat16 \--gpu-memory-utilization 0.75 \--quantization fp8 \--distributed-executor-backend mp

请求推理

import time
from openai import OpenAIclient = OpenAI(api_key="EMPTY",#base_url="http://127.0.0.1:22002/v1",base_url="http://10.0.128.211:22002/v1",timeout=3600
)messages = [{"role": "user","content": [{"type": "image_url","image_url": {"url": "https://ofasys-multimodal-wlcb-3-toshanghai.oss-accelerate.aliyuncs.com/wpf272043/keepme/image/receipt.png"}},{"type": "text","text": "Describe the image."}]}
]start = time.time()
response = client.chat.completions.create(#model="Qwen3-VL-235B-A22B-Thinking",#model="Qwen3-30B-A3B-Instruct-2507",#model="/mnt/data/projects/GLM_4.5v/ckpts/Qwen/Qwen3-30B-A3B-Instruct-2507",model="Qwen3-VL-30B-A3B-Instruct",messages=messages,max_tokens=2048
)
print(f"Response costs: {time.time() - start:.2f}s")
print(f"Generated text: {response.choices[0].message.content}")
http://www.jsqmd.com/news/11736/

相关文章:

  • 2025 屋顶防水维修/外墙防水维修/电梯井防水维修厂家推荐榜:专注全场景渗漏解决方案供应!
  • 2025 流化床/GMP标准/实验室气流粉碎机厂家推荐榜:聚焦多行业粉碎需求,赋能高效生产!
  • 2025年OPP涂布机源头厂家最新推荐榜:技术领先与市场口碑
  • 【EBS】EBS系统新克隆环境的MRP无法运行
  • 花纹铝板口碑推荐/铝板厂家推荐/铝板知名品牌
  • FirstOrDefault
  • 2025通风气楼厂家推荐:欧诺通风设备,高效节能品质之选
  • 2025年湖南短视频代运营/拍摄/剪辑/方案策划/推广/引流/IP打造公司综合实力排行榜推荐
  • 2025粉末涂料厂家推荐:财诺名荣,环保高效品质之选!
  • elementPlus tabel实现复制粘贴功能
  • 2025.10.11NOIP模拟
  • 颠覆传统RAG!Agentic RAG登场,AI代理如何“自我进化”解决复杂 query?
  • 在 Windows 下集成 Conda 与 VS Code 打造高效开发环境
  • 洛谷题单指南-进阶数论-P2421 [NOI2002] 荒岛野人
  • 2025粉末涂料厂家最新推荐榜:环保高效与色彩持久的行业佼佼
  • 基于微信小工具高仿背单词消除游戏
  • python fast api websocket 连接事例
  • Idea摸鱼看小说插件(YsQy-Book)-免费使用
  • 贴牛皮纸铝卷生产商推荐/铝卷生产厂家/铝卷哪家好
  • 2025浇注型聚氨酯厂家口碑排行榜:品质与服务双优之选
  • 查询top cpu占用排行
  • 2025氧化镁厂家最新推荐榜:高纯度与优质服务并重的行业先锋
  • RAFT 共识算法
  • 【Vue】LangChain4j大模型对话-前端页面完成(vite+vue3+router)
  • 【Vue】LangChain4j大模型对话-前端页面完成(vite+vue3+router)
  • 【gradio】使用Gradio快速开发前端界面:基础知识
  • 2025风机盘管厂家口碑推荐榜:高效节能与稳定性能的行业首选
  • Open WebUI:打造友好且强大的自托管 AI 平台
  • 直流微电网运行控制仿真算法设计与实现
  • 车载360环视平台:米尔RK3576开发板支持12路低延迟推流