当前位置: 首页 > news >正文

Qwen2.5-Coder-32B-Instruct-AWQ模型部署

1.系统环境

  • NVIDIA T4 * 2 /16G * 2 Driver Version: 535.154.05 CUDA Version: 12.2
  • Qwen/Qwen2.5-Coder-32B-Instruct-AWQ

2.vllm镜像下载,使用vllm加载模型

dockerpull vllm/vllm-openai:latest

3.模型下载

  • 阿里魔搭社区

https://www.modelscope.cn/models

  • 使用vllm容器下载
dockerrun--rm-it\--gpusall\--entrypoint/bin/bash\--pids-limit-1\--security-optseccomp=unconfined\-v/root/lipengcheng/qwen2532ia:/models\-eOMP_NUM_THREADS=8\vllm/vllm-openai:latest\-c"pip install modelscope && python3 -c\"from modelscope import snapshot_download; snapshot_download('Qwen/Qwen2.5-Coder-32B-Instruct-AWQ', cache_dir='/models')\""

4.加载Qwen2.5-Coder-32B-Instruct-AWQ模型

dockerrun--gpusall-d-p8000:8000--nameqwen2.5-coder32\--ipc=host\--pids-limit-1\--security-optseccomp=unconfined\-v/root/lipengcheng/qwen2532ia/Qwen/Qwen2___5-Coder-32B-Instruct-AWQ:/model\-eHF_DATASETS_OFFLINE=1\-eTRANSFORMERS_OFFLINE=1\-eOMP_NUM_THREADS=16\vllm/vllm-openai:latest\--model/model\--tensor-parallel-size2\--max-model-len16384\--gpu-memory-utilization0.9\--trust-remote-code
  • 看到如下日志就说明加载成功了

5.模型测试

  • 测试命令
curlhttp://localhost:8000/v1/chat/completions\-H"Content-Type: application/json"\-d'{ "model": "/model", "messages": [{"role": "user", "content": "你好"}] }'
  • 返回内容
{"id":"chatcmpl-bf4f4555eeceea94","object":"chat.completion","created":1778649567,"model":"/model","choices":[{"index":0,"message":{"role":"assistant","content":"你好!有什么我可以帮忙的吗?","refusal":null,"annotations":null,"audio":null,"function_call":null,"tool_calls":[],"reasoning":null},"logprobs":null,"finish_reason":"stop","stop_reason":null,"token_ids":null}],"service_tier":null,"system_fingerprint":null,"usage":{"prompt_tokens":30,"total_tokens":39,"completion_tokens":9,"prompt_tokens_details":null},"prompt_logprobs":null,"prompt_token_ids":null,"kv_transfer_params":null}
http://www.jsqmd.com/news/1092162/

相关文章:

  • TRF7970A NFC/RFID读写器GUI深度实操指南:从协议交互到P2P通信
  • Anthropic推理层归零:从vLLM调度到契约式API的架构革命
  • WinUtil:革命性Windows系统管理工具,一键完成软件部署与系统优化
  • 半导体企业如何做 EDA 许可证采购决策:从模块冲突到项目排期,管理层该看哪些数据
  • 终极指南:Awoo Installer如何让Switch游戏安装变得简单高效
  • 在Linux部署AdGuardHome:构建家庭网络去广告DNS网关
  • leetcode:两个数组的交集
  • Linux应急响应实战:从Webshell排查到系统加固的完整指南
  • 告别图片!三种 CSS 原生方案实现任意方向三角形
  • AutoUnipus终极指南:快速掌握U校园智能刷课工具完整教程
  • MouseTester:免费开源的鼠标性能终极测试工具
  • Top10大考察
  • 从工具函数中注入消息
  • Python自动化工具:5分钟快速创建Gmail账号的完整指南
  • 【保姆级教程】小米6X编译LineageOS 20.0完整指南(Android 13)
  • 从高斯光学到凸轮曲线:机械补偿式三组元连续变焦系统设计全流程解析
  • 错误码429频发?OpenAI官方文档未明说的限流逻辑,如何用3种动态退避策略实现零失败调用,
  • HarmonyOS NEXT 实战:RelativeContainer 百分比/比例定位全面指南
  • 二维数组知识
  • DIN EN ISO 5084
  • 3D Web 服务器环境搭建
  • Android 17 新特性全览
  • SpringBoot自动装配底层全流程
  • Agent的诞生(二):让模型开始调用工具
  • AES与Serpent对称加密算法:原理、对比与Python/Android/Qt实战
  • 为什么你用光模块测试FPGA IBERT不通
  • OneMore插件终极指南:如何用160+个强大功能彻底改造你的OneNote体验
  • GESP4级C++考试语法知识(一、指针(9、指针与函数调用)
  • 特殊上位机权限管理方案
  • AI插件开发实战:基于JS脚本的Illustrator色标生成器设计与实现