当前位置: 首页 > news >正文

多模态大模型本地部署(Qwen2.5-VL-7B-Instruct)

1.模型选型

  • 服务器信息:NVIDIA T4 * 2 16G * 2 Driver Version: 535.154.05 CUDA Version: 12.2
  • 模型选择Qwen2.5-VL-7B-Instruct-AWQ,速度非常快,毫秒级响应

2.下载模型

dockerrun--rm-it\--gpusall\--entrypoint/bin/bash\--pids-limit-1\--security-optseccomp=unconfined\-v/root/lipengcheng/models1:/models\-eOMP_NUM_THREADS=8\vllm/vllm-openai:latest\-c"pip install modelscope && python3 -c\"from modelscope import snapshot_download; snapshot_download('qwen/Qwen2.5-VL-7B-Instruct-AWQ', cache_dir='/models/qwen')\""

3.下载vllm镜像

dockerpull vllm/vllm-openai:latest

4.启动容器

dockerrun--gpusall-d-p8000:8000--nameqwen2.5-vl-7b\--ipc=host\--pids-limit-1\--security-optseccomp=unconfined\-v/root/lipengcheng/models1/qwen/Qwen2___5-VL-7B-Instruct-AWQ:/model\-eHF_DATASETS_OFFLINE=1\-eTRANSFORMERS_OFFLINE=1\-eOMP_NUM_THREADS=16\vllm/vllm-openai:latest\--model/model\--tensor-parallel-size2\--max-model-len16384\--gpu-memory-utilization0.9\--trust-remote-code
  • 参数解释
一、 Docker 基础运行参数 此部分负责容器的基础生命周期与资源映射。--gpusall:将宿主机的所有 GPU 资源透传给容器使用。 -d:后台运行(Detached 模式),避免占用当前终端会话。-p8000:8000:端口映射。将容器内部的8000服务端口映射到宿主机的8000端口,以便外部服务(如 API 客户端)进行访问。--nameqwen2.5-vl-7b:指定容器名称,便于后续的日志查看、启停和资源监控。-v<宿主机路径>:/model:目录挂载。将宿主机中实际存放模型权重的复杂路径,映射为容器内统一且极简的 /model 目录,可有效规避 vLLM 对过长路径的解析异常。 二、 系统与权限控制参数(关键) 此部分用于打破系统默认的安全限制,是大模型在多卡、高并发场景下不崩溃的保障。--ipc=host:(多卡并行必填项) 允许容器直接使用宿主机的共享内存。在启用多卡张量并行(TP)时,GPU 之间的数据交换极其频繁,若不配置此项,容器默认的 64MB 共享内存会被瞬间耗尽并导致进程卡死。 --pids-limit -1:解除容器内最大进程/线程数的限制。大模型在加载和推理阶段会派生海量线程,设置为 -1(无限制)可防止 pthread_create failed 报错。 --security-optseccomp=unconfined:解除系统级安全拦截。部分较新的 Linux 内核(如 Ubuntu24.04)默认的安全策略(seccomp)会拦截 AI 计算库的底层系统调用,配置此项可予开放行。 三、 环境变量配置(网络与 CPU 调优) 此部分通过-e注入容器,用于优化启动速度和宿主机 CPU 负载。HF_DATASETS_OFFLINE=1TRANSFORMERS_OFFLINE=1:(离线部署核心) 强制底层 HuggingFace 库开启纯离线模式。禁止其在服务启动时尝试连接外网校验版本或下载依赖,实现“秒读”本地硬盘模型,彻底杜绝因网络超时或 DNS 解析失败导致的启动崩溃。OMP_NUM_THREADS=16:限制 CPU 底层数学库的并发线程数。避免在进行 CPU 预处理时占用宿主机全部核心,防止系统资源抢占导致的整体卡顿。 四、 vLLM 引擎推理参数 此部分直接决定了 AI 模型的显存分配逻辑和运行表现。--model/model:指定 vLLM 加载模型的路径(对应上述-v挂载的容器内路径)。 --tensor-parallel-size2:张量并行度(TP)。强制将模型切分并分布到2块显卡上协同计算,解决单张显存不足的问题(卡数需根据实际物理 GPU 数量严格对应)。 --max-model-len16384:最大上下文长度限制。限制单次请求(包含历史对话及图像编码)的最大 Token 数量。合理设定此阈值,可防止因输入超长文本导致显存溢出(OOM)。 --gpu-memory-utilization0.9:显存利用率分配。指定 vLLM 引擎可预先占用的显存比例上限(此处为90%)。系统会利用这些空间存放模型权重和 KV Cache,预留10% 供显卡驱动和其他底层进程使用。 --trust-remote-code:允许执行模型包内附带的自定义 Python 代码。对于采用了新架构的模型(如 Qwen、InternVL),此项为必填项,否则引擎会出于安全限制拒绝加载其特有的网络结构代码。
  • 启动日志

查看代码 CODEBLOCK_PLACEHOLDER_0005

  • 显卡缓存模型的速度

  • token缓存数量30多万个

5.模型测试

CODEBLOCK_PLACEHOLDER_0006 CODEBLOCK_PLACEHOLDER_0007

6.测试模型页面html

  • 页面展示,单个html页面,直接双击运行,如果有喜欢的,可以私信我

http://www.jsqmd.com/news/1119200/

相关文章:

  • 远程专家指导系统如何重塑制造业一线运维效率
  • 300V 高压直流电源调试 48V/72V 低压电机:完整安全规范与实操要点
  • AI原生低代码破局:LLM接入与智能体落地技术全解
  • 多系统认证授权利器:OAuth2,究竟该如何使用?
  • FPGA加速随机模拟退火算法实现与优化
  • 看懂一个 AI 范式,比用一百个 AI 产品更重要
  • 二阶段项目抖粉智算项目总结
  • 大白话说一说C++指针的非法访问
  • freeRTOS学习
  • 十年,谁来成就你?
  • 带标注的骑电动车是否佩戴头盔数据集,识别率77.1%,1345张图,支持yolo,coco json,voc xml,文末有模型训练代码
  • 如何通过HsMod插件实现炉石传说游戏体验的全面优化
  • 国际化办公首选!全域多语言切换会议录音APP
  • PHP安全编码实战:从SQL注入到XSS攻击的全面防护指南
  • 基于Hermes Agent与Harness Engineering构建生产级AI智能体实战指南
  • 打通智能体的“知识供应链”:OKF 重构 Agent 时代的知识基建
  • 工业视觉质检延迟,核心瓶颈该如何定位?
  • Windows 端 OpenClaw 完整安装流程|全程可视化操作 + 安装包获取
  • GPT-4o真实效能评估:何时该用,何时该弃
  • 锐捷RG-N18000-X 交换机一对多端口镜像(RSPAN)保姆级实战指南
  • 记住窗口位置大小一键恢复免费工具
  • SAM 3 视频分割实战教程:用文本提示分割并跟踪视频中的目标
  • 全驱数字人API实战教程:一张图片即可生成AI数字人(附完整API文档)
  • CAD画图时如何快速地进行图层的设置?-CAD画图基础
  • Triton 编译器在 ROCm 下的应用,自定义 Kernel 开发的桥梁
  • 如何科学评估大语言模型性能:避开虚假版本与误导性跑分
  • ComfyUI v0.27.0更新:Int8模型正式落地,卷积模型加速、Turing显卡支持、视频与多分辨率能力全面增强
  • 【Java毕业设计】中小型汽配企业销售台账管理系统的设计与实现 基于 SpringBoot 的汽车配件供应商与采购销售系统(源码+文档+远程调试,全bao定制等)
  • CTF 基础密码学:模素数二次剩余解题 Writeup
  • 融数筑基联产链·同源贯通兴煤化——孪生空间数据融通 打通煤化工矿生产管理数据链路技术白皮书