当前位置：首页 > news >正文

【SGlang】sglang部署本地模型

news 2026/7/30 18:56:48

官网

https://docs.sglang.ai/get_started/install.html

使用多模态模型命令

--enable-multimodal

设置启动服务后模型的名字

--served-model-name Qwen3-VL-8B-Thinking

docker启动模型（使用已下载好的模型文件）

docker run--name 20251117_sglang_Qwen3-VL-4B-Thinking--gpusall--shm-size 20g-p30000:30000-v D:\docker_data\sglang:/root/.cache/huggingface--ipc=host lmsysorg/sglang:v0.5.5.post1-cu129-amd64 python3-m sglang.launch_server--model-path/root/.cache/huggingface/hub/models/Qwen/Qwen3-VL-4B-Thinking--served-model-name Qwen/Qwen3-VL-4B-Thinking--mem-fraction-static0.9--quantization fp8--dtype float16--host0.0.0.0--port30000

分配用于kv缓存占总显存的比例

--mem-fraction-static 0.8

分配GPU显存80%给kv缓存使用，默认值0.8，当显存不足时，需要降低给kv分配的kv缓存

设置用于模型执行器的GPU内存比例

--gpu-memory-utilization 0.85

设置上下文长度

--context-length 1010000

设置内存池最大token数，会显著改变显存占用

--max-total-tokens 20000

分配20g内存给模型使用

--shm-size 20g

模型地址

--model-path Qwen/Qwen3-VL-8B-Thinking

此地址实际的位置是docker容器内部的以下地址，此处用的modelscope，huggingface有同样的目录结构

/root/.cache/modelscope/hub/models/Qwen/Qwen3-VL-8B-Thinking

在本地挂载的地址

模型使用8bit量化

--quantization fp8

模型运行时使用float16精度运行

--dtype float16

设置模型名字

自定义服务启动后的模型名字为Qwen/Qwen3-VL-4B-Thinking

--served-model-name Qwen/Qwen3-VL-4B-Thinking

设置显存碎片可连续

-e PYTORCH_ALLOC_CONF=expandable_segments:True

本地文件目录结构

其他参数查询

启动一个空容器

添加tail -f /dev/null

docker run--name 20251118_sglang_Qwen3-VL-4B-Thinking--gpusall--shm-size 20g-p30000:30000-v D:\docker_data\sglang:/root/.cache/huggingface--ipc=host lmsysorg/sglang:v0.5.5.post1-cu129-amd64 tail-f/dev/null

进入容器内部执行命令

dockerexec-it 20251118_sglang_Qwen3-VL-4B-Thinking/bin/bash

查看命令参数

python-m sglang.launch_server-help

或者访问sglang官方网站查看

https://docs.sglang.io/advanced_features/server_arguments.html

官网查询其他详细参数

https://docs.sglang.io/advanced_features/server_arguments.html

cpu卸载

直接参数卸载

将多少GB的模型权重卸载到cpu中

--cpu-offload-gb

分组卸载

将模型权重多少层分为一组

--offload-group-size

每组卸载多少层到cpu中

--offload-num-in-group

查看全文

http://www.jsqmd.com/news/932799/

zhangkaifan

别再只盯着Vaihingen数据集刷榜了：一份给遥感新手的实战避坑与数据预处理指南

Django+Vue控糖食物推荐系统源码+论文

靠谱的钢制拖链厂家推荐 - myqiye

ASM232S电气特性与TIA/EIA-232-F及ITU V.28标准符合性深度分析

冷风机好用吗？利邦机电告诉你！ - myqiye

如何集成size-plugin到CI/CD流程：自动化构建大小监控方案

C++中的命名空间详细介绍

FP4量化技术解析：MXFP4与NVFP4的对比与实践

2026南通老房瓷砖空鼓修复企业推荐八大区靠谱修缮团队汇总 - 吉修匠

零硬件成本学Arduino！Wokwi在线仿真入门指南与避坑宝典

小米手机后台堆叠功能上线，多任务切换效率翻倍

Claude组织能力与LangChain的本质区别

2026年海安私密性好适合约会的足道店口碑推荐 - mypinpai

Zillow 数据抓取器

【Linux系统编程】线程池项目实战与基于策略模式的日志系统

别再用余弦相似度了！用Python手写PMI（点间互信息）从零到一搞定关键词共现分析

终极窗口强制调整工具：3分钟掌握任意窗口尺寸修改技巧

PTT5-base-t5-vocab实战案例：葡萄牙语摘要生成与翻译应用

MySQL版饭店点餐系统数据库一键部署包（含建表脚本、初始化数据与操作指南）

如何让AI生成项目的单元测试，propmt技巧详解

OpencvSharp 算子学习教案之 - Cv2.GetOptimalDFTSize

拾贰指沐影院式足道费用高不高 - mypinpai

基于Rao-Blackwellized粒子滤波与多融合策略全阶 EKF 的双车协同 SLAM 研究（Matlab代码实现）

Sora 2交互设计白皮书首发，揭秘OpenAI未公开的7层反馈闭环机制，含真实A/B测试数据集

VisualCppRedist AIO深度解析：一站式自动化部署的技术实现与架构剖析

2026 无锡瓷砖空鼓翘边维修哪家靠谱？七大区优质修缮企业综合盘点 - 吉修匠

别再只会生成黑白方块了！用Python的qrcode库给你的二维码换个皮肤（附完整代码）

2026立式食品包装机技术解析：立式粉料包装机/立式粉末包装机/立式酱料包装机/立式零食包装机/立式颗粒包装机/选择指南 - 优质品牌商家

官网