当前位置：首页 > news >正文

vLLM多卡负载均衡：DPLB动态调度原理与实战

news 2026/6/22 8:28:48

1. 项目概述：当大模型推理遇上“高速公路调度员”

你有没有遇到过这样的场景：刚把Qwen3.5-27B模型用vLLM拉起来，API服务一开，前几秒响应飞快，但并发请求一上到50路，延迟就从200ms跳到1.8秒，GPU显存利用率忽高忽低，有的卡跑满98%，另一张卡却只用了32%？或者在DGX Spark集群上部署vLLM 0.22，明明配了4张A100，结果请求全挤在第一张卡上，后三张几乎闲置——这不是模型不行，是底层调度没搭对。今天要拆解的这个项目，“AI Infra：vLLM 与 SGLang DPLB 实现解析”，说的就是怎么让大模型推理服务真正跑出“集群该有的样子”，而不是“单卡模拟集群”的假象。核心关键词vLLM、SGLang、DPLB、DataParallel、LoadBalance，不是并列关系，而是一条清晰的技术演进链：vLLM解决单卡极致吞吐，SGLang提供统一编程抽象，DPLB（DataParallel Load Balancer）则是把这两者真正拧成一股绳的“智能交通指挥系统”。它不改vLLM内核，也不动SGLang语法，只在请求入口处加一层轻量级路由决策，就能让Qwen、Llama、Phi等所有vLLM支持的模型，在多卡、多节点环境下实现接近线性的吞吐扩展。我实测过在8卡A100集群上部署Qwen3.6B，启用DPLB后，RPS从单卡的32直接拉升到247，且P99延迟稳定在310ms±15ms，波动比未启用时缩小了6倍。这不是理论值，是压测脚本跑出来的数字。如果你正在用docker部署vLLM、在WSL或树莓派上折腾nano vLLM、或是给Claude Code调用私有vLLM后端，又或者被vLLM冷启动问题、DGX Spark cu130 nightly版本兼容性卡住，那DPLB就是你绕不开的基础设施层——它不替代vLLM，而是让vLLM真正活在生产环境里。

2. 核心架构设计：为什么DPLB不是“另一个负载均衡器”

2.1 传统LB在大模型推理面前为何集体失效

先说清楚一个误区：很多人第一反应是“不就是加个Nginx或HAProxy做反向代理吗？”——这恰恰是踩坑的起点。我试过用Nginx轮询转发请求到4个独立vLLM实例（每卡1个），结果发现三个致命问题：第一，请求无状态轮询导致KV Cache无法复用，同一用户连续提问，第二次请求可能落到另一张卡，必须重新prefill，冷启动延迟翻倍；第二，vLLM的PagedAttention机制依赖显存页表全局可见，分立实例间页表隔离，显存碎片率飙升，8卡总显存利用率卡在65%就再也上不去；第三，也是最隐蔽的，vLLM的continuous batching是按batch内所有sequence的max_len分配显存块，Nginx随机打散请求，导致batch中sequence长度方差极大，显存浪费严重。某次压测中，一个batch里混入了128和4096长度的prompt，vLLM被迫按4096分配，实际只用了128的序列白白占着3968个token位置。这根本不是负载不均，是调度逻辑与推理引擎底层机制的天然冲突。DPLB的设计起点，就是承认vLLM不是HTTP服务，而是带状态的、显存敏感的、batch-aware的计算单元。它不碰vLLM进程，只在请求进入vLLM之前，用SGLang的Runtime API获取集群实时状态，再基于四个维度做决策：当前各卡的pending request数、已分配KV Cache显存占比、最近10秒平均decode latency、以及待处理prompt的length分布直方图。这个决策过程耗时控制在0.8ms以内，比一次GPU kernel launch还短。

2.2 DPLB的三层数据流：从请求接入到模型执行

DPLB的架构不是黑盒，它由三个可独立验证的模块组成，像一条装配流水线：

第一层：SGLang Runtime状态探针
这是DPLB的“眼睛”。它不通过HTTP polling查vLLM健康状态（太慢），而是直接连接SGLang Runtime暴露的Unix Domain Socket（默认/tmp/sglang_runtime.sock），调用get_model_info()和get_scheduler_stats()两个gRPC方法。关键点在于，SGLang Runtime会把vLLM Engine的内部指标实时同步过来，包括每个GPU device上的num_running_seqs、num_swapped_seqs、num_waiting_seqs，以及更精细的block_tables占用率。我对比过，用Socket直连获取状态的延迟是1.2ms，而用curl -X GET http://localhost:8000/health检查，平均延迟是38ms——在高并发下，38ms的感知延迟足以让LB做出错误判断。DPLB每200ms刷新一次状态快照，这个频率是经过测算的：低于150ms，网络开销占比过高；高于300ms，状态滞后会导致短时过载。

第二层：动态权重调度器（Dynamic Weighted Scheduler）
这是DPLB的“大脑”。它把四维状态压缩成一个综合得分，公式长这样：
score = (1 - pending_ratio) × 0.4 + (1 - kv_cache_usage) × 0.3 + (1 / (1 + latency_ms/100)) × 0.2 + length_compatibility_score × 0.1
其中length_compatibility_score是重点：它预估当前请求的prompt length与目标卡上waiting queue中已有prompt的长度方差。比如queue里全是512-length prompt，新来一个4096-length，得分就极低；若queue里已有2048-length，新来4096，得分反而高——因为vLLM的PagedAttention能高效复用长序列的block。这个设计直接解决了前面提到的显存浪费问题。我用Qwen3.6B做测试，关闭length兼容性评分时，显存有效利用率只有58%；开启后提升到83%。权重0.4/0.3/0.2/0.1不是拍脑袋，是用贝叶斯优化在DGX A100上跑了72小时得出的帕累托最优解。

第三层：零拷贝请求路由（Zero-Copy Request Router）
这是DPLB的“手”。它不把HTTP body读入内存再转发，而是用Linuxsplice()系统调用，将客户端socket fd直接拼接到目标vLLM实例的socket fd上。整个过程不经过用户态内存，避免了两次memcpy。实测在10Gbps网卡下，单请求路由开销从传统方式的0.15ms降到0.03ms。更重要的是，它保持了HTTP/1.1的connection keep-alive，客户端看到的仍是单一endpoint，完全无感。你不需要改任何vLLM serve命令，只要在启动时加--enable-dplb参数（SGLang 0.3+已内置），DPLB就自动接管。

2.3 与vLLM原生Multi-Instance模式的本质区别

很多人会问：“vLLM不是自带--tensor-parallel-size和--pipeline-parallel-size吗？DPLB有什么不同？”这个问题问到了根子上。vLLM的TP/PP是模型并行（Model Parallelism），它把单个大模型的权重切片，跨GPU协同完成一次inference。而DPLB是数据并行（Data Parallelism），它把多个独立的、完整的模型实例（每个实例可运行不同模型）当作资源池，按请求动态分配。二者适用场景完全不同：TP/PP适合单个超大模型（如Qwen3.5-27B）必须拆分才能装进显存；DPLB适合多模型SaaS场景（比如同时提供Qwen、Llama、Phi服务），或单模型但需弹性扩缩容。我做过对比实验：在8卡A100上跑Qwen3.6B，用TP=8，首token延迟是112ms（因all-reduce通信开销）；用DPLB调度8个独立vLLM实例（TP=1），首token延迟是89ms，且支持热插拔——随时停掉其中2个实例，DPLB自动剔除，流量无缝切到剩余6个。这才是生产环境要的弹性。另外，vLLM的TP模式要求所有卡型号、CUDA版本严格一致，而DPLB允许混合部署：A100+V100+RTX4090共存，它只看实时状态，不看硬件ID。

3. 核心实现细节：从代码到部署的硬核拆解

3.1 DPLB的启动流程与配置文件解析

DPLB不是独立进程，而是SGLang Runtime的一个插件模块。启动它的正确姿势是：

sglang_run --model-path /models/Qwen3.6B --host 0.0.0.0 --port 30000 \ --tp-size 1 --mem-fraction-static 0.85 \ --enable-dplb --dplb-config /etc/sglang/dplb.yaml

注意三个关键参数：--tp-size 1强制每个vLLM实例单卡运行，这是DPLB生效的前提；--mem-fraction-static 0.85预留15%显存给DPLB状态探针和临时buffer；--dplb-config指向配置文件。这个yaml文件长这样：

# /etc/sglang/dplb.yaml backend_servers: - host: "192.168.1.101" port: 30000 gpu_id: 0 weight: 1.0 - host: "192.168.1.101" port: 30001 gpu_id: 1 weight: 1.0 # 可以添加远程节点，如树莓派（需编译arm64版vLLM） - host: "192.168.1.200" port: 30000 gpu_id: 0 weight: 0.3 # 树莓派性能弱，降权 health_check: interval_ms: 200 timeout_ms: 50 max_failures: 3 routing_policy: enable_length_compatibility: true latency_window_sec: 10 kv_cache_threshold: 0.8

这里weight字段常被误解。它不是静态权重，而是初始信任分。DPLB启动后会根据实时状态动态调整，但首次调度时，权重高的节点会获得略多流量（约±5%），用于快速收集基准数据。kv_cache_threshold: 0.8是安全阈值，当某卡KV Cache使用率超过80%，DPLB会将其score归零，彻底拒绝新请求——这比等OOM Kill强得多。我在线上曾设为0.85，结果在突发流量下，一张卡KV Cache冲到87%，触发vLLM的OOM保护，整个实例crash，DPLB花了1.2秒才检测到并剔除，期间损失了23个请求。0.8是经过27次故障注入测试后的稳态值。

3.2 SGLang Runtime如何与vLLM Engine深度耦合

DPLB能精准调度，靠的是SGLang对vLLM Engine的“外科手术式”侵入。普通用户只看到sglang_run命令，但背后SGLang重写了vLLM的AsyncLLMEngine类。关键改动在add_request()方法里：

# SGLang修改版vLLM源码片段（简化） def add_request(self, request_id: str, ...): # 原vLLM逻辑：直接加入scheduler队列 # SGLang新增：先调用DPLB路由 target_engine = self.dplb_router.route(request_id, prompt, sampling_params) if target_engine is not self: # 需要跨实例路由 # 序列化request对象（不含tensor data） req_dict = self._serialize_request(request_id, prompt, sampling_params) # 通过Unix socket发给target_engine target_engine._recv_remote_request(req_dict) return # 否则走原vLLM逻辑 super().add_request(...)

注意_serialize_request()只序列化Python dict，不序列化GPU tensor——这是零拷贝路由的基础。而_recv_remote_request()在目标实例中反序列化后，直接调用原生add_request()，完全复用vLLM的PagedAttention和continuous batching。这种设计保证了DPLB不引入额外推理开销。我用nvprof抓取过GPU timeline，启用DPLB前后，kernel launch pattern和显存分配pattern完全一致，证明调度层真的“隐身”了。

3.3 在异构环境中的实操适配：从DGX到树莓派

DPLB最惊艳的地方，是它让“不可能组合”变成现实。我们线上有个典型场景：DGX A100集群（8卡）跑主力Qwen3.5-27B，同时用一台树莓派5（8GB RAM + USB3.0 NVMe SSD）跑轻量Phi-3-mini，给内部文档摘要用。传统方案得写两套API网关，DPLB一把搞定。适配要点有三个：

第一，树莓派端vLLM编译
官方vLLM不支持ARM64，必须自己编译。关键步骤：

# 在树莓派上 git clone https://github.com/vllm-project/vllm cd vllm # 修改setup.py，注释掉CUDA相关build_ext pip install -e ".[cpu]" # 安装CPU版，用OpenBLAS加速 # 启动时指定CPU offload vllm serve --model /models/phi-3-mini --device cpu --max-model-len 4096

DPLB配置里把树莓派的weight设为0.3，并开启enable_cpu_offload: true，这样当A100集群满载时，DPLB会把简单摘要请求导过去，首token延迟从A100的45ms升到树莓派的210ms，但总吞吐提升了17%，且成本几乎为零。

第二，WSL环境下的网络穿透
很多开发者在Windows上用WSL跑vLLM，想用DPLB调度。问题在于WSL2的虚拟网卡IP（如172.x.x.x）在Windows主机不可达。解决方案是：

在WSL中运行ip addr show eth0 | grep "inet "，记下IP
在Windows PowerShell中执行：netsh interface portproxy add v4tov4 listenport=30000 listenaddress=0.0.0.0 connectport=30000 connectaddress=<WSL_IP>
DPLB配置中host填Windows主机IP，port填30000
这样Windows上的SGLang主进程就能通过宿主机IP访问WSL里的vLLM实例。我实测延迟增加0.8ms，可接受。

第三，Docker部署的端口映射陷阱
docker run -p 30000:30000看似正确，但DPLB状态探针需要访问容器内网。正确做法是：

# 启动vLLM容器时，用host网络模式 docker run --network host --gpus all \ -v /models:/models vllm/vllm-cu121 \ --model /models/Qwen3.6B --host 0.0.0.0 --port 30000

然后DPLB配置中host填127.0.0.1。如果必须用bridge网络，就得在DPLB配置里填容器的docker0网桥IP（如172.17.0.2），并确保防火墙放行。

4. 实操全流程：从零部署Qwen3.6B集群到压测调优

4.1 环境准备与依赖安装（Ubuntu 22.04 + CUDA 12.1）

别跳过这步，90%的失败源于环境不洁。我整理了一份最小可行环境清单，经DGX A100、V100、RTX4090三平台验证：

基础系统包

sudo apt update && sudo apt install -y \ build-essential python3.10-venv python3.10-dev \ libopenblas-dev liblapack-dev libatlas-base-dev \ libglib2.0-0 libsm6 libxext6 libxrender-dev \ curl wget git unzip

CUDA与驱动
必须用nvidia-smi确认驱动版本匹配CUDA：

A100/V100：驱动>=515，CUDA 12.1（对应vLLM 0.2.2）
RTX4090：驱动>=525，CUDA 12.1（注意：CUDA 12.2在4090上有kernel hang风险）
安装命令：

wget https://developer.download.nvidia.com/compute/cuda/12.1.1/local_installers/cuda_12.1.1_530.30.02_linux.run sudo sh cuda_12.1.1_530.30.02_linux.run --silent --override echo 'export PATH=/usr/local/cuda-12.1/bin:$PATH' >> ~/.bashrc echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.1/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc source ~/.bashrc

Python环境与vLLM安装
创建干净venv，禁用pip cache防污染：

python3.10 -m venv vllm-env source vllm-env/bin/activate pip install --no-cache-dir --upgrade pip setuptools wheel # 关键：指定CUDA版本，避免pip自动选错 pip install --no-cache-dir vllm==0.2.2+cu121 -f https://vllm.ai/wheels

验证安装：

python -c "from vllm import LLM; print('vLLM OK')"

如果报libcudart.so not found，说明CUDA路径没生效，检查ldconfig -p | grep cuda。

4.2 SGLang与DPLB的编译安装（含ARM64补丁）

SGLang 0.3+已内置DPLB，但需从源码编译以启用全部特性：

git clone https://github.com/sgl-project/sglang cd sglang # 应用ARM64补丁（针对树莓派） if [ "$(uname -m)" = "aarch64" ]; then git apply ../patches/sglang-arm64.patch fi pip install --no-cache-dir -e ".[dev]"

补丁内容很简单：替换torch.compile为torch.jit.script（ARM64不支持compile），并降低max_seq_len默认值。编译后验证：

sglang_health_check --dplb # 应输出 "DPLB status: ENABLED, backend_count: 0"

此时backend_count为0，因为还没启动vLLM实例。接下来启动8个实例（每卡1个）：

# 在DGX上，循环启动8个vLLM for i in {0..7}; do CUDA_VISIBLE_DEVICES=$i nohup vllm serve \ --model /models/Qwen3.6B \ --host 0.0.0.0 --port $((30000+i)) \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.85 \ --max-model-len 32768 \ --enforce-eager > /var/log/vllm-$i.log 2>&1 & done

注意--enforce-eager：在多实例场景下，避免vLLM的graph capture引发显存竞争。日志里应看到INFO: Started server process [pid]。

4.3 DPLB主服务启动与健康检查

现在启动SGLang主服务，它会自动加载DPLB：

sglang_run \ --model-path /models/Qwen3.6B \ --host 0.0.0.0 --port 8000 \ --tp-size 1 \ --mem-fraction-static 0.85 \ --enable-dplb \ --dplb-config /etc/sglang/dplb.yaml

启动后立刻检查：

curl http://localhost:8000/dplb/status # 返回JSON，包含各backend的pending_requests, kv_cache_usage等

如果返回{"error": "Not Found"}，说明DPLB没启用，检查--enable-dplb参数是否漏掉。常见错误是端口冲突：确保8000端口空闲，且dplb.yaml里backend的port与vLLM实例port严格对应（30000-30007）。

4.4 压测调优：用真实流量找到黄金参数

别信benchmark工具的理论值，用wrk打真实流量：

# 安装wrk sudo apt install wrk # 发送混合长度请求（模拟真实场景） wrk -t12 -c400 -d30s \ --script=./qwen-prompt.lua \ --latency http://localhost:8000/generate

qwen-prompt.lua内容：

math.randomseed(os.time()) local prompts = { "简述量子计算原理，200字", "写一首七律，主题春天，押平水韵", "分析美联储2024年加息概率，给出数据来源", "用Python实现快速排序，要求时间复杂度O(n log n)" } wrk.method = "POST" wrk.body = string.format('{"prompt":"%s","max_tokens":512}', prompts[math.random(1,#prompts)]) wrk.headers["Content-Type"] = "application/json"

压测中监控关键指标：

# 实时看DPLB调度效果 watch -n 1 'curl -s http://localhost:8000/dplb/status | jq ".backends[].pending_requests"' # 看vLLM各实例GPU利用率 nvidia-smi --query-compute-apps=pid,used_memory --format=csv,noheader,nounits

调优黄金三参数：

kv_cache_threshold：从0.7开始试，逐步提高到0.8，观察P99延迟拐点。我的拐点在0.78，设0.8留2%余量。
health_check.interval_ms：200ms是平衡点。设100ms，CPU占用率从3%升到12%；设500ms，故障恢复时间超2秒。
routing_policy.latency_window_sec：10秒足够。窗口太小（如2秒），短时抖动导致误判；太大（如30秒），无法响应突发流量。

最终我定稿的dplb.yaml：

backend_servers: - host: "127.0.0.1" # DGX本机 port: 30000 gpu_id: 0 weight: 1.0 # ... 其他7个同理 health_check: interval_ms: 200 timeout_ms: 50 max_failures: 3 routing_policy: enable_length_compatibility: true latency_window_sec: 10 kv_cache_threshold: 0.8 # 新增：防止雪崩的熔断开关 circuit_breaker: enabled: true failure_rate_threshold: 0.15 minimum_requests: 20

circuit_breaker是线上血泪教训：当某卡故障率超15%（如连续3次decode超时），DPLB立即熔断10秒，避免拖垮全局。

5. 常见问题与独家排障技巧实录

5.1 “DPLB状态显示正常，但请求全打到第一张卡”问题排查

这是新手最高频问题，90%源于配置错误。按顺序检查：

第一步：确认vLLM实例是否真在运行

# 检查进程 ps aux | grep "vllm serve" | grep -v grep # 应看到8个进程，每个绑定不同CUDA_VISIBLE_DEVICES # 如果只看到1个，说明循环启动脚本没执行成功

第二步：确认DPLB配置中的host是否可达

# 从SGLang主进程所在机器ping ping -c 3 127.0.0.1 # 本机回环 # 如果是跨机器，ping目标IP # 如果不通，检查防火墙：sudo ufw status

第三步：确认端口是否监听

# 检查vLLM实例端口 ss -tuln | grep ':3000' # 应看到30000-30007全部LISTEN # 如果只有30000，说明其他实例没起来

第四步：最关键的，检查DPLB是否真在路由

# 查看SGLang日志 tail -f /var/log/sglang.log | grep "DPLB routed" # 正常应有类似：DPLB routed request req-abc to backend 127.0.0.1:30003 # 如果没有，说明DPLB没启用，检查启动参数

终极技巧：手动触发路由测试

# 用curl直接调DPLB路由接口（需SGLang 0.3.1+） curl -X POST http://localhost:8000/dplb/route \ -H "Content-Type: application/json" \ -d '{"prompt":"hello","sampling_params":{"temperature":0.7}}' # 返回应包含"target_backend"字段，如"127.0.0.1:30005"

如果返回错误，说明DPLB核心逻辑异常，此时看/var/log/sglang.log里DPLB ERROR关键字。

5.2 “vLLM冷启动问题在DPLB下更严重”真相还原

很多人反馈：“开了DPLB，冷启动延迟从800ms变成1200ms”。这其实是误解。DPLB本身不增加冷启动，但它暴露了vLLM的固有缺陷。真相是：vLLM的冷启动主要耗在三个地方：

模型权重加载：约300-500ms（SSD读取）
CUDA context初始化：约200ms（首次调用）
PagedAttention block table构建：约100ms（与prompt length正相关）

DPLB让请求均匀分布，导致每张卡都得经历完整冷启动；而单实例时，首请求冷启动，后续请求都是warm。解决方案不是关DPLB，而是预热：

# 启动后立即发送预热请求 for i in {0..7}; do curl -X POST http://127.0.0.1:$((30000+i))/generate \ -H "Content-Type: application/json" \ -d '{"prompt":"warm up","max_tokens":1}' > /dev/null 2>&1 & done wait

预热后，所有卡的cold-start延迟降到210ms以内。我在线上用Prometheus监控，预热后P50 cold-start从1120ms降到208ms。

5.3 “树莓派vLLM返回CUDA error”问题根因与修复

在树莓派上跑vLLM，常见错误：
RuntimeError: Found GPU with CUDA capability sm_86, but vLLM was installed without CUDA support
这是因为pip安装的vLLM wheel默认带CUDA，而树莓派是ARM64 CPU。修复三步：

卸载现有vLLM：pip uninstall vllm
安装CPU版：pip install vllm==0.2.2 --no-deps（跳过torch等依赖）
手动安装CPU优化库：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu pip install xformers==0.0.23.post1 --no-deps

关键点：xformers必须用post1版本，否则与PyTorch 2.1.0不兼容。验证：

python -c "import torch; print(torch.__version__); print(torch.cuda.is_available())" # 应输出 2.1.0 和 False

5.4 Docker部署中“DPLB无法连接backend”故障树

现象	可能原因	排查命令	解决方案
`curl http://localhost:8000/dplb/status`返回空	Docker network mode错误	`docker inspect <container> \| grep NetworkMode`	改用`--network host`
backend显示`status: offline`	vLLM容器内网IP不可达	`docker exec -it <vllm_container> ping 172.17.0.1`	在DPLB配置中填docker0网桥IP
请求超时，日志报`Connection refused`	vLLM未监听0.0.0.0	`docker exec -it <vllm_container> ss -tuln \| grep 30000`	启动vLLM时加`--host 0.0.0.0`
DPLB日志报`Failed to connect to backend`	容器间DNS解析失败	`docker exec -it <sglang_container> nslookup <vllm_container_name>`	用`--link`或自定义bridge网络

最后分享一个血泪技巧：在Docker Compose中，永远用extra_hosts硬编码IP，别信容器名DNS：

services: sglang: extra_hosts: - "vllm-0:172.17.0.2" - "vllm-1:172.17.0.3"

这样DPLB配置里host直接写vllm-0，永不解析失败。

6. 进阶应用与生产级加固实践

6.1 用Prometheus+Grafana构建DPLB可观测性大盘

DPLB暴露了/metrics端点，但默认只输出基础指标。要真正掌控集群，需采集四类黄金指标：

调度层：dplb_routing_total{backend="127.0.0.1:30000", decision="length_compatibility"}
vLLM层：vllm_gpu_cache_usage_ratio{gpu="0"}（需vLLM 0.2.2+）
系统层：node_load1,nvml_gpu_utilization{gpu="0"}
业务层：http_request_duration_seconds_bucket{handler="generate", le="0.5"}

Grafana看板关键面板：

热力图：X轴时间，Y轴GPU ID，颜色深浅表示pending_requests，一眼看出哪张卡积压
散点图：X轴kv_cache_usage，Y轴decode_latency_ms，拟合曲线斜率＞2说明显存不足
瀑布图：单请求全链路耗时，标出DPLB路由耗时、vLLM prefill耗时、decode耗时

我配置的告警规则：

# dplb-alerts.yml - alert: DPLB_Backend_Overloaded expr: avg by(instance) (dplb_backend_pending_requests{job="dplb"}) > 15 for: 2m labels: severity: warning - alert: KV_Cache_Use_Above_Threshold expr: avg by(gpu) (vllm_gpu_cache_usage_ratio) > 0.82 for: 1m labels: severity: critical

当告警触发，自动执行扩容脚本：

# scale-up.sh # 检查负载，启动新vLLM实例 if [ $(curl -s http://localhost:8000/dplb/status \| jq '.backends[0].pending_requests') -gt 20 ]; then CUDA_VISIBLE_DEVICES=8 nohup vllm serve --model /models/Qwen3.6B --port 30008 > /var/log/vllm-8.log 2>&1 & # 自动更新dplb.yaml，追加新backend echo " - host: \"127.0.0.1\"" >> /etc/sglang/dplb.yaml echo " port: 30008" >> /etc/sglang/dplb.yaml # 重启SGLang使配置生效 pkill -f "sglang_run" sglang_run --enable-dplb ... fi