当前位置：首页 > news >正文

qwen3.5 vllm本地部署

news 2026/7/3 11:31:16

VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-9B --port 8000 --tensor-parallel-size 1 --max-model-len 262144 --reasoning-parser qwen3

客户端

from openai import OpenAI import os import time start = time.time() # Configured by environment variables client = OpenAI( api_key="EMPTY", base_url="http://ip:8000/v1", timeout=3600 ) messages = [ { "role": "user", "content": [ { "type": "image_url", "image_url": { "url": "https://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3.5/demo/RealWorld/RealWorld-04.png" # "url": image_url } }, { "type": "text", "text": "描述一下" } ] } ] #lovedheart/Qwen3.5-4B-FP8 #tclf90/Qwen3.5-4B-AWQ chat_response = client.chat.completions.create( model="tclf90/Qwen3.5-4B-AWQ", messages=messages, max_tokens=8192, temperature=0.7, top_p=0.8, presence_penalty=1.5, extra_body={ "top_k": 20, "chat_template_kwargs": {"enable_thinking": False}, }, ) print("Chat response:", chat_response) print("total-time:", time.time() -start)

开机自启动服务

[Unit] Description=vLLM Service After=network.target [Service] Type=simple User=ippbx Environment="VLLM_USE_MODELSCOPE=true" Environment="CUDA_VISIBLE_DEVICES=0" Environment="HF_HUB_OFFLINE=1" Environment="TRANSFORMERS_OFFLINE=1" ExecStart=/bin/bash -c 'source /home/ippbx/anaconda3/bin/activate vllm && VLLM_USE_MODELSCOPE=true vllm serve tclf90/Qwen3.5-4B-AWQ --port 8000 --tensor-parallel-size 1 --max-model-len 262144 --reasoning-parser qwen3' Restart=always RestartSec=10 StandardOutput=journal StandardError=journal [Install] WantedBy=multi-user.target

启动及日志查看

sudo systemctl daemon-reload sudo systemctl start vllm.service sudo journalctl -u vllm.service -f

查看全文

http://www.jsqmd.com/news/538143/

Phi-3-mini-128k-instruct学习C语言：指针与内存管理难点解析

PyLink 实战技巧：从基础连接到高级调试

Linux原生B站客户端：突破平台限制的深度体验指南

2026一键式测量仪哪家强？国产品牌VS国际大牌，真实测评告诉你答案 - 品牌推荐大师1

MobaXterm远程免密登录疑难杂症全解析：从pk.pub到authorized_keys的避坑指南

3分钟搞定Windows音频捕获：win-capture-audio让你的录音效率翻倍

路由器实例 useRouter，当前路由信息 useRoute（params, query）

美超微案件凸显人工智能基础设施供应链风险

2026年共话防火门实力厂商，南京泰瀚科技获客户认可 - 工业品牌热点

保姆级教程：在Next.js App Router项目中，从API路由到前端按钮的完整删除流程

股票可视化的毕设：从零构建一个可交互的金融数据看板（新手入门实战）

上海高端腕表鉴定维修全攻略：38个奢华品牌故障解析+六城门店实测（含2026权威数据） - 时光修表匠

一键解决中文文献管理痛点：茉莉花插件让Zotero效率提升90%的完整指南

DataEyes聚合平台新API接入实战指南：从0到1打通实时数据链路

如何3分钟搞定本地语音转文字：TMSpeech终极高效方案

从 nvm 到 Volta：前端工具链管理的演进与自动化实践

别再对着手册发愁了！手把手教你用Vivado配置Xilinx FFT IP核（附时序仿真与资源优化技巧）

微信聊天记录备份指南：3步轻松保护你的珍贵回忆

智能客服Agent实战：从零搭建高可用对话系统的全流程指南

RK3568 Android12长按电源键无反应？三步搞定关机菜单恢复

从原理到实践：Matlab相机标定参数详解与坐标变换全流程

MZmine 3：开源质谱数据处理软件的终极实战指南

Phi-4-Reasoning-Vision开发者案例：与LangChain集成实现多跳图文推理链

颈肩痛分急性和慢性，对症缓解才有效

Magisk Root技术实践指南：从决策评估到风险管控的完整解决方案

德希科技在线电导率传感器

Onekey智能管理：Steam游戏数据整合的效率工具解决方案

企业IT必看：教员工用小米手机配置Exchange邮箱的完整指南（含服务器参数详解）

GPT-4o 实战：如何用 ChatGPT API 提升开发效率的 5 个关键技巧

如何通过zotero-style实现文献管理效率提升：7个实用技巧

相关文章：