当前位置: 首页 > news >正文

qwen3.5 vllm本地部署

VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-9B --port 8000 --tensor-parallel-size 1 --max-model-len 262144 --reasoning-parser qwen3

客户端

from openai import OpenAI import os import time start = time.time() # Configured by environment variables client = OpenAI( api_key="EMPTY", base_url="http://ip:8000/v1", timeout=3600 ) messages = [ { "role": "user", "content": [ { "type": "image_url", "image_url": { "url": "https://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3.5/demo/RealWorld/RealWorld-04.png" # "url": image_url } }, { "type": "text", "text": "描述一下" } ] } ] #lovedheart/Qwen3.5-4B-FP8 #tclf90/Qwen3.5-4B-AWQ chat_response = client.chat.completions.create( model="tclf90/Qwen3.5-4B-AWQ", messages=messages, max_tokens=8192, temperature=0.7, top_p=0.8, presence_penalty=1.5, extra_body={ "top_k": 20, "chat_template_kwargs": {"enable_thinking": False}, }, ) print("Chat response:", chat_response) print("total-time:", time.time() -start)

开机自启动服务

[Unit] Description=vLLM Service After=network.target [Service] Type=simple User=ippbx Environment="VLLM_USE_MODELSCOPE=true" Environment="CUDA_VISIBLE_DEVICES=0" Environment="HF_HUB_OFFLINE=1" Environment="TRANSFORMERS_OFFLINE=1" ExecStart=/bin/bash -c 'source /home/ippbx/anaconda3/bin/activate vllm && VLLM_USE_MODELSCOPE=true vllm serve tclf90/Qwen3.5-4B-AWQ --port 8000 --tensor-parallel-size 1 --max-model-len 262144 --reasoning-parser qwen3' Restart=always RestartSec=10 StandardOutput=journal StandardError=journal [Install] WantedBy=multi-user.target

启动及日志查看

sudo systemctl daemon-reload sudo systemctl start vllm.service sudo journalctl -u vllm.service -f
http://www.jsqmd.com/news/538143/

相关文章:

  • Phi-3-mini-128k-instruct学习C语言:指针与内存管理难点解析
  • PyLink 实战技巧:从基础连接到高级调试
  • Linux原生B站客户端:突破平台限制的深度体验指南
  • 2026一键式测量仪哪家强?国产品牌VS国际大牌,真实测评告诉你答案 - 品牌推荐大师1
  • MobaXterm远程免密登录疑难杂症全解析:从pk.pub到authorized_keys的避坑指南
  • 3分钟搞定Windows音频捕获:win-capture-audio让你的录音效率翻倍
  • 路由器实例 useRouter,当前路由信息 useRoute(params, query)
  • 美超微案件凸显人工智能基础设施供应链风险
  • 2026年共话防火门实力厂商,南京泰瀚科技获客户认可 - 工业品牌热点
  • 保姆级教程:在Next.js App Router项目中,从API路由到前端按钮的完整删除流程
  • 股票可视化的毕设:从零构建一个可交互的金融数据看板(新手入门实战)
  • 上海高端腕表鉴定维修全攻略:38个奢华品牌故障解析+六城门店实测(含2026权威数据) - 时光修表匠
  • 一键解决中文文献管理痛点:茉莉花插件让Zotero效率提升90%的完整指南
  • DataEyes聚合平台新API接入实战指南:从0到1打通实时数据链路
  • 如何3分钟搞定本地语音转文字:TMSpeech终极高效方案
  • 从 nvm 到 Volta:前端工具链管理的演进与自动化实践
  • 别再对着手册发愁了!手把手教你用Vivado配置Xilinx FFT IP核(附时序仿真与资源优化技巧)
  • 微信聊天记录备份指南:3步轻松保护你的珍贵回忆
  • 智能客服Agent实战:从零搭建高可用对话系统的全流程指南
  • RK3568 Android12长按电源键无反应?三步搞定关机菜单恢复
  • 从原理到实践:Matlab相机标定参数详解与坐标变换全流程
  • MZmine 3:开源质谱数据处理软件的终极实战指南
  • Phi-4-Reasoning-Vision开发者案例:与LangChain集成实现多跳图文推理链
  • 颈肩痛分急性和慢性,对症缓解才有效
  • Magisk Root技术实践指南:从决策评估到风险管控的完整解决方案
  • 德希科技在线电导率传感器
  • Onekey智能管理:Steam游戏数据整合的效率工具解决方案
  • 企业IT必看:教员工用小米手机配置Exchange邮箱的完整指南(含服务器参数详解)
  • GPT-4o 实战:如何用 ChatGPT API 提升开发效率的 5 个关键技巧
  • 如何通过zotero-style实现文献管理效率提升:7个实用技巧