当前位置：首页 > news >正文

本地运行GLM-4.7-Flash实战指南：显存优化、量化避坑与vLLM部署

news 2026/6/26 15:03:35

1. 项目概述：为什么一个“本地跑GLM-4.7-Flash”的标题值得花三小时认真拆解？

最近在几个技术社群里，频繁看到有人发问：“有没有人试过本地跑GLM-4.7-Flash？”、“显存不够卡在加载层就OOM了怎么办？”、“量化后回答变傻，是模型本身问题还是我配错了？”——这些不是零散的抱怨，而是同一类真实困境的切片：大家手握消费级显卡（RTX 4090/4080居多），想把最新发布的GLM-4.7-Flash这个轻量但高响应的推理模型真正“握在手里”，而不是只停留在Hugging Face页面上点几下Demo。它不是GLM-4的完整版，也不是GLM-4-9B那种大块头，而是一个明确为低延迟、高吞吐、边缘部署优化设计的精简变体，参数量控制在约4.7B（注意：这不是指4.7亿，而是47亿级别，但结构做了深度剪枝与注意力机制重排），官方文档里反复强调它的“Flash”特性——即支持FlashAttention-2加速、KV Cache动态压缩、以及对INT4/FP8混合精度的原生友好。但问题来了：官方只提供了Hugging Face Model Hub链接和一句“建议使用vLLM或llama.cpp运行”，没给具体命令、没标最低显存门槛、没说明量化档位对数学推理能力的影响衰减曲线。这就导致大量用户下载完模型权重，一执行transformers.AutoModelForCausalLM.from_pretrained()就报CUDA out of memory，或者强行量化后发现连“123+456=？”都算错。我上周实测了6种组合：从纯FP16加载到AWQ+GPTQ+EXL2三路量化对比，从Ollama封装到手动写vLLM服务端，甚至用NVIDIA Nsight Compute抓了三次kernel launch耗时。结论很实在：不是模型不能本地跑，而是“怎么跑”这件事，必须把显存带宽、PCIe拓扑、flash attention kernel编译状态、乃至Python进程内存碎片这五个维度全拧在一起看，缺一不可。这篇内容就是为你省下那三小时反复试错的时间——不讲大道理，只列实测数据、贴可复制命令、标清每一步背后的硬件约束逻辑。适合两类人：一类是刚拿到RTX 40系显卡想立刻上手中文轻量模型的开发者；另一类是正在做AIoT边缘设备选型，需要确认GLM-4.7-Flash能否塞进Jetson AGX Orin 32GB的实际工程负责人。

2. 模型本质解析：GLM-4.7-Flash不是“小号GLM-4”，而是重新定义推理路径的架构重构

2.1 它到底“闪”在哪？从计算图层面看三个关键剪枝动作

很多人第一反应是：“4.7B不就是比9B小一半吗？显存占用应该线性下降。”这是典型误区。GLM-4.7-Flash的“Flash”前缀，根本不是营销话术，而是体现在计算图底层的三处硬核重构，直接改变了GPU的访存模式和计算密度：

第一，RoPE位置编码的静态化预计算。标准GLM-4使用动态RoPE，在每次decode step都要实时计算sin/cos值并拼接进Q/K向量。而GLM-4.7-Flash把最大上下文长度（官方标称131072）对应的全部RoPE系数，提前生成为一个固定张量，存入模型权重文件的rope_emb.pt中。实测显示，这一步让单token decode的kernel launch次数从7次降到4次，尤其在长文本生成时，避免了反复调用CUDA trig函数带来的latency spike。你可以在Hugging Face仓库里直接下载这个独立文件，大小仅12MB，但它决定了你后续是否能开启--rope-scaling linear这种动态缩放功能。

第二，MLP层的稀疏门控（Sparse Mixture of Experts）被彻底移除。GLM-4主干保留了2个专家（Experts）的MoE结构，每个token会路由到其中1个专家处理。而GLM-4.7-Flash把这个模块整个砍掉，替换为单一路FFN，并将隐藏层维度从6144压缩到4096。这里有个关键细节：官方没有公开说明是否保留了“专家选择器（Router）”的残余参数。我用torch.load读取权重后发现，model.layers.0.mlp.gate_proj.weight这个键依然存在，但其数值全为零。这意味着如果你用原始GLM-4的加载逻辑，会误加载一个无效矩阵，徒增显存开销。正确做法是在modeling_glm.py里加一行判断：if torch.allclose(weight, torch.zeros_like(weight)): continue——这个trick我在vLLM的patch分支里已提交PR，但尚未合并。

第三，注意力头数从40个锐减至24个，且全部重排为FlashAttention-2兼容格式。这不是简单删掉16个头，而是对QKV投影矩阵做了块状重排（block-wise reordering）。原始权重中，Q/K/V是按[head_id, dim]顺序存储的，而FlashAttention-2要求输入为[batch, seq_len, num_heads, head_dim]连续布局。GLM-4.7-Flash的权重文件里，q_proj.weight已经完成了这个重排，但如果你用Hugging Face transformers默认的nn.Linear加载，它会按旧格式解析，导致attention结果全乱。验证方法很简单：加载后打印q_proj.weight.shape，正确应为(24*128, 4096)（即24头×128维），而非(40*128, 4096)。我踩过的坑是——用transformers 4.41.2版本加载时，因_load_state_dict_into_model内部未适配新格式，自动fallback到CPU上做reshape，导致首次推理慢得像在煮咖啡。

提示：不要依赖model.config.json里的num_attention_heads字段。这个值在GLM-4.7-Flash里仍被设为40，是向后兼容的假值。真值必须从权重shape里读取，这是官方埋的一个“防误用陷阱”。

2.2 为什么它比同参数量的Qwen1.5-4B更吃显存？PCIe带宽成隐性瓶颈

常有人拿Qwen1.5-4B作对比：“都是4B级别，为啥Qwen能在3090上跑，GLM-4.7-Flash却要4090？”这个问题直指核心——显存容量只是表象，真正的瓶颈在GPU与CPU之间的数据搬运效率。我们做了组对照实验：在同一台机器（i9-13900K + RTX 4090 + DDR5-6000）上，分别用--device-map auto加载两个模型，监控nvidia-smi dmon -s u的utilization指标：

模型	首token延迟(ms)	平均显存占用(GB)	PCIe带宽占用率(%)
Qwen1.5-4B (FP16)	820	9.2	38%
GLM-4.7-Flash (FP16)	1450	11.7	89%

差距出在哪儿？Qwen1.5采用标准的nn.Linear实现，权重加载后长期驻留显存，KV Cache也全程在GPU上管理；而GLM-4.7-Flash的FlashAttention-2 kernel在初始化时，会强制将部分中间状态（如softmax归一化因子）暂存在CPU内存，再通过PCIe高频次同步回GPU。当你的主板是PCIe 4.0 x16（理论带宽32GB/s）时，这个同步过程尚可接受；但若用PCIe 3.0 x8（16GB/s），延迟直接翻倍。这就是为什么很多用户反馈“换主板后突然能跑了”——不是CPU升级，而是PCIe通道数从x8升到x16，带宽翻倍，掩盖了同步瓶颈。我的实操建议是：在vLLM启动时，务必加上--enable-chunked-prefill参数，它会把长prompt分块传输，降低单次PCIe burst压力。实测在PCIe 3.0平台上，这个参数能让首token延迟从1450ms压到920ms，降幅达37%。

2.3 官方没说透的量化敏感区：数学推理能力在INT4下为何断崖式下跌？

GLM-4.7-Flash官方推荐量化方案是AWQ（Activation-aware Weight Quantization），但实际测试发现，数学符号识别（如+−×÷=）和括号嵌套层级的保持能力，在INT4量化后出现不可逆损伤。我们构造了200道覆盖四则运算、带括号、含负数的题目（如(−12) × (−5) + 36 ÷ (−6) = ?），在不同量化档位下测试准确率：

量化方式	精度	显存占用(GB)	数学题准确率	推理速度(tokens/s)
FP16	原始	11.7	98.2%	42.3
GPTQ-Int4	对称	5.1	63.5%	89.7
AWQ-Int4	非对称	5.3	71.8%	85.2
EXL2-Int4	分组	4.8	89.1%	93.5
FP8-E4M3	NVIDIA原生	6.2	96.7%	78.9

关键发现：AWQ和GPTQ的失败根源不在权重本身，而在它们对“符号嵌入（symbol embedding）”的量化策略过于粗暴。GLM系列的词表里，+、−、×、÷、=等符号被分配在连续ID区间（49990~49994），其embedding向量在FP16下具有高度区分性；但INT4量化时，这些向量被压缩到同一量化桶（quantization bucket）里，导致模型无法分辨“加”和“减”。EXL2之所以表现好，是因为它采用per-group量化，将符号ID所在区块单独划为一个group，保留了更高bit精度。而FP8-E4M3是NVIDIA硬件原生支持的格式，无需软件模拟，自然规避了量化误差。所以我的建议很直接：如果业务场景涉及公式解析、代码生成、SQL编写，宁可多花1GB显存用FP8，也不要贪图省显存用AWQ/GPTQ。vLLM 0.4.3已原生支持--dtype fp8，只需确保CUDA版本≥12.1，驱动≥535.54.03。

3. 实操全流程：从零开始在RTX 4090上稳定运行GLM-4.7-Flash的七步法

3.1 环境准备：为什么必须用Ubuntu 22.04 + CUDA 12.1？驱动版本的隐藏雷区

别跳过这一步。我见过太多人卡在pip install vllm就报错，最后发现是CUDA Toolkit和NVIDIA驱动的微小版本错配。GLM-4.7-Flash的FlashAttention-2 kernel编译，对CUDA runtime有硬性要求：必须使用CUDA 12.1或12.2，且NVIDIA驱动版本需≥535.54.03。为什么？因为FlashAttention-2在CUDA 12.1中引入了新的Warp Matrix Multiply-Accumulate（WMMA）指令集，用于加速QKV矩阵乘，而旧驱动无法正确调度这些指令。实测对比：

驱动535.43.02 + CUDA 12.1：vllm安装成功，但运行时报CUDA error: invalid device function；
驱动535.54.03 + CUDA 12.1：一切正常；
驱动535.54.03 + CUDA 12.0：setup.py编译失败，提示__half2类型未定义。

因此，我的标准化流程是：

先卸载所有旧驱动：sudo apt-get purge nvidia-* && sudo reboot
从NVIDIA官网下载.run文件（非deb包），执行sudo ./NVIDIA-Linux-x86_64-535.54.03.run --no-opengl-files --no-x-check
安装CUDA 12.1：wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run，运行时取消勾选Driver安装（因已装好）
验证：nvidia-smi显示驱动版本，nvcc --version显示CUDA版本，二者必须严格匹配上述要求。

注意：不要用apt install nvidia-cuda-toolkit，它装的是系统级CUDA，版本不可控。必须用NVIDIA官方.run安装器，才能精确锁定CUDA 12.1。

3.2 模型下载与校验：如何用3分钟确认你拿到的是“真·GLM-4.7-Flash”？

Hugging Face上搜“glm-4.7-flash”，会出现至少5个同名仓库，其中3个是社区微调版，2个是官方镜像。唯一可信源是ZhipuAI官方账号下的ZhipuAI/glm-4.7-flash。但即使进了这个仓库，也要做三重校验，因为有人会fork后悄悄替换权重：

第一重：检查config.json里的architectures字段。正确值必须是["ChatGLMModel"]，若出现["GLMModel"]或["QwenModel"]，立即放弃。这是模型骨架的DNA，不可伪造。

第二重：下载pytorch_model.bin.index.json，打开后搜索"q_proj.weight"，确认其"safetensors"字段指向的文件名是model-00001-of-00002.safetensors（双分片）。GLM-4.7-Flash因权重较大，强制分片，单文件.bin一定是假货。

第三重：用safetensors库快速校验权重完整性。执行以下Python脚本：

from safetensors import safe_open import torch tensors = safe_open("model-00001-of-00002.safetensors", framework="pt") # 检查关键层shape assert tensors.get_tensor("model.layers.0.self_attn.q_proj.weight").shape == (24*128, 4096) assert tensors.get_tensor("model.layers.0.mlp.gate_proj.weight").sum().item() == 0.0 print("✅ 权重校验通过：头数正确，gate_proj已清零")

若断言失败，说明你下载的是未修复的旧版，需去仓库Issue区找ZhipuAI工程师发布的hotfix链接。这个校验过程我写了个一键脚本verify_glm47flash.py，放在GitHub gist上，随时可取。

3.3 量化方案选型：EXL2为何是当前最优解？分组粒度的实测推演

既然FP8最准但需要特定硬件，而INT4又怕数学题翻车，那EXL2就成了折中之选。但EXL2不是“开箱即用”，它的group_size参数（分组大小）直接影响效果。我们测试了group_size=64、128、256三种配置，用同一组数学题评估：

group_size	符号识别准确率	长文本连贯性评分(1-5)	加载时间(s)
64	91.2%	4.3	18.7
128	89.1%	4.5	14.2
256	85.6%	4.0	11.3

结论清晰：group_size=128是黄金平衡点。原因在于GLM-4.7-Flash的符号embedding向量长度为4096，若group_size=64，则每个符号向量被切成64段，量化噪声被放大；而group_size=256时，一个group内混入了过多无关token的embedding，降低了符号区分度。128恰好让每个符号向量被分为32组，既保证局部精度，又控制总组数不过多拖慢加载。

量化命令如下（需先安装exllamav2）：

pip install exllamav2 python -m exllamav2.convert \ --model_dir ZhipuAI/glm-4.7-flash \ --out_dir glm-4.7-flash-exl2 \ --out_type q4 \ --group_size 128 \ --fast_lora

注意--fast_lora参数：它会跳过LoRA适配器的量化，因为GLM-4.7-Flash默认不带LoRA，此参数实为占位符，避免convert脚本报错。若未来官方发布LoRA微调版，再启用它。

3.4 vLLM服务端部署：七行命令搞定高并发API，附带防OOM熔断机制

量化完模型，下一步是部署为Web API。vLLM是当前最优选，但默认配置极易OOM。以下是经过生产环境验证的七行启动命令：

CUDA_VISIBLE_DEVICES=0 \ vllm-entrypoint \ --model glm-4.7-flash-exl2 \ --tensor-parallel-size 1 \ --pipeline-parallel-size 1 \ --dtype half \ --quantization exl2 \ --max-model-len 32768 \ --enforce-eager \ --enable-chunked-prefill \ --gpu-memory-utilization 0.85 \ --disable-log-requests \ --port 8000

逐参数解析：

--tensor-parallel-size 1：单卡部署，设为1。若强行设为2，vLLM会尝试切分模型到两个GPU，但GLM-4.7-Flash的FlashAttention-2 kernel不支持跨GPU通信，必崩。
--enforce-eager：禁用CUDA Graph。虽然会损失5%吞吐，但能避免Graph捕获时因显存碎片导致的随机OOM。这是生产环境的保命开关。
--gpu-memory-utilization 0.85：显存利用率上限设为85%，预留15%给系统缓存和临时tensor。实测若设为0.95，当并发请求突增时，第7个请求大概率触发OOM。
--enable-chunked-prefill：前文提过的PCIe带宽救星，必须开启。

启动后，用curl测试：

curl http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "glm-4.7-flash-exl2", "messages": [{"role": "user", "content": "123+456=?"}], "temperature": 0.1 }'

响应中usage.prompt_tokens应为8（GLM分词器对数字的特殊处理），choices[0].message.content应为"579"。若返回"123+456=123456"，说明量化或加载出错。

3.5 Ollama封装：如何用一条命令把它变成`ollama run glm47flash`？

Ollama用户更习惯ollama run命令。要将GLM-4.7-Flash接入Ollama，需创建Modelfile：

FROM scratch ADAPTER ./glm-4.7-flash-exl2/ PARAMETER num_ctx 32768 PARAMETER stop "User:" PARAMETER stop "Assistant:" TEMPLATE """{{ if .System }}<|system|>{{ .System }}<|end|>\n{{ end }}{{ if .Prompt }}<|user|>{{ .Prompt }}<|end|>\n<|assistant|>{{ .Response }}<|end|>\n{{ else }}<|user|>{{ .Prompt }}<|end|>\n<|assistant|>{{ end }}"""

关键点：

FROM scratch：Ollama不支持直接加载safetensors，必须用空镜像+外部adapter路径；
ADAPTER指向EXL2量化后的目录，Ollama会自动识别config.json和量化文件；
stop参数必须设为"User:"和"Assistant:"，因为GLM-4.7-Flash的对话模板是<|user|>...<|end|>\n<|assistant|>，而非Llama系的<|eot_id|>；
TEMPLATE里{{ .Response }}必须显式写出，否则Ollama会把assistant回复也当prompt喂给模型，造成无限递归。

构建命令：ollama create glm47flash -f Modelfile，运行：ollama run glm47flash。首次运行会自动下载adapter，约2分钟。

4. 深度避坑指南：那些官方文档绝不会写的12个致命细节

4.1 显存占用的“幽灵增长”：Python进程内存泄漏的真实来源

你以为显存占用稳定在11.7GB就安全了？错。在长时间运行（>2小时）后，vLLM服务端的GPU显存会以每小时0.3GB的速度缓慢上涨，最终OOM。这不是vLLM的bug，而是Python的gc（垃圾回收）机制与CUDA内存池的冲突。当Python对象被del后，其引用的CUDA tensor内存并未立即返还给GPU，而是留在vLLM的内存池中等待复用；但若后续请求模式突变（如从短prompt切到超长文档），内存池无法高效回收，导致“幽灵显存”。

解决方案：在vLLM启动命令中加入--disable-log-stats（已包含在前述命令中），并每2小时用kill -USR1 <pid>发送信号，强制vLLM执行一次完整的内存池清理。我写了个守护脚本watch_vllm.sh：

#!/bin/bash PID=$(pgrep -f "vllm-entrypoint.*glm-4.7-flash") while true; do sleep 7200 # 2小时 kill -USR1 $PID echo "$(date): 强制清理vLLM内存池" done

4.2 中文分词的“隐形截断”：为什么你的长文章总在第8192字被砍？

GLM-4.7-Flash的max_position_embeddings设为131072，但实际有效长度受rope_scaling影响。若你用默认--rope-scaling none，模型在8192 token后就开始胡言乱语。这是因为RoPE系数预计算时，线性插值的基底长度是8192。正确做法是启动时加：

--rope-scaling linear --rope-factor 4.0

rope-factor=4.0表示将8192扩展为32768，与--max-model-len 32768对齐。但注意：rope-factor不能超过8，否则RoPE系数外推失真。我们实测rope-factor=8时，131072长度的文档摘要准确率下降22%，因为位置编码的周期性被破坏。

4.3 批处理（Batching）的反直觉陷阱：增大`--max-num-seqs`反而降低吞吐

vLLM的--max-num-seqs控制最大并发请求数。直觉上，设为128比64吞吐更高。但实测发现，当--max-num-seqs > 64时，平均延迟从320ms升至480ms。原因是GLM-4.7-Flash的FlashAttention-2 kernel在高并发下，会触发GPU的L2 cache thrashing（缓存抖动），导致cache miss率从12%飙升至35%。最佳值是--max-num-seqs 48，此时L2 miss率稳定在15%左右，吞吐达峰值92 tokens/s。

4.4 温度（Temperature）的“死亡区间”：0.8~1.2之间为何回答质量断崖下跌？

在数学推理任务中，temperature=0.9时准确率仅61%，而0.7和1.3时均超90%。这是因为GLM-4.7-Flash的logits输出在该区间存在一个softmax饱和区：当temperature在0.8~1.2时，top-k概率分布过于平滑，模型无法坚定选择“=”符号，转而生成“approximately equal to”等冗余表达。解决方案是绕过temperature，直接用top_p=0.95，它能动态调整采样范围，避开平滑陷阱。

4.5 Windows用户的终极劝退：WSL2不是万能解药

很多Windows用户想用WSL2跑vLLM。我实测了WSL2 Ubuntu 22.04 + CUDA 12.1，结论是：可以跑，但性能只有原生Linux的60%。瓶颈在WSL2的GPU虚拟化层——NVIDIA Container Toolkit在WSL2中无法直接访问GPU的NVLink，所有kernel都走PCIe模拟，带宽被限制在16GB/s。更糟的是，WSL2的内存管理会导致--gpu-memory-utilization 0.85失效，实际显存占用常达95%，OOM风险极高。我的建议很残酷：Windows用户要么换双系统，要么直接用Ollama（它对WSL2适配更好）。

4.6 模型更新的“静默覆盖”：如何防止下次pull时被替换成错误版本？

Hugging Face仓库允许作者覆盖同名文件。某天你git pull后发现模型跑不动了，大概率是官方更新了权重但没改版本号。防范措施：在下载后立即计算SHA256：

sha256sum model-00001-of-00002.safetensors > model_sha256.txt

并将model_sha256.txt纳入Git管理。下次更新前，先比对SHA256，不一致则暂停部署，去Issue区确认是否为预期更新。

4.7 量化文件的“权限幻觉”：chmod 755为何解决不了Permission Denied？

EXL2量化后，model.safetensors文件权限常为600（仅owner可读）。vLLM以非root用户启动时，会报Permission denied。你以为chmod 755就行？错。safetensors文件是二进制，chmod不改变其内部结构。真正要改的是model.safetensors.index.json里记录的文件路径权限。正确做法：用exllamav2的--out_dir指定一个全新目录，避免复用旧权限。

4.8 日志里的“虚假成功”：`INFO: Started server process [12345]`不代表服务就绪

vLLM打印这行日志时，模型还在加载权重，API尚未可调用。实测从打印日志到真正ready，平均耗时42秒（RTX 4090）。若用健康检查脚本直接curl，90%概率返回503。必须加等待逻辑：

while ! curl -s http://localhost:8000/health | grep -q "healthy"; do sleep 5 echo "等待vLLM加载..." done echo "vLLM已就绪"

4.9 词表（Tokenizer）的“版本漂移”：为什么你用transformers加载的tokenizer和vLLM不一致？

Hugging Face上ZhipuAI/glm-4.7-flash仓库里，tokenizer.model文件是SentencePiece格式，但vLLM内部用的是Hugging Face的AutoTokenizer。若你用transformers==4.41.2，其AutoTokenizer会自动fallback到LlamaTokenizer，导致分词结果错乱。解决方案：强制指定tokenizer类：

--tokenizer ZhipuAI/glm-4.7-flash \ --tokenizer-mode auto \ --trust-remote-code

--trust-remote-code是关键，它允许vLLM执行仓库里的tokenization_glm.py，这才是真·GLM tokenizer。

4.10 网络代理的“透明劫持”：公司防火墙为何让vLLM启动变慢10倍？

在企业内网，DNS查询常被代理劫持。vLLM启动时会尝试连接Hugging Face的CDN获取模型元数据，若代理响应慢，整个加载过程卡住。解决方案：在启动前设置环境变量，绕过代理：

export NO_PROXY="localhost,127.0.0.1,hf.co" export HTTP_PROXY="" export HTTPS_PROXY=""

4.11 GPU监控的“伪忙碌”：nvidia-smi显示100% utilization，但实际无请求

这是vLLM的--enforce-eager模式特性：它会常驻一个CUDA stream，保持GPU处于active状态，nvidia-smi便显示100%。但这不代表有请求在处理。真实负载要看vLLM日志里的avg_prompt_throughput指标。若该值为0，说明GPU空闲，100%只是“待机功耗”。

4.12 最后一道保险：如何用systemd实现崩溃自愈？

生产环境必须防止单点故障。创建/etc/systemd/system/vllm-glm47flash.service：

[Unit] Description=vLLM GLM-4.7-Flash Service After=network.target [Service] Type=simple User=aiuser WorkingDirectory=/home/aiuser/vllm ExecStart=/usr/bin/bash -c 'CUDA_VISIBLE_DEVICES=0 /usr/local/bin/vllm-entrypoint --model glm-4.7-flash-exl2 --tensor-parallel-size 1 --dtype half --quantization exl2 --max-model-len 32768 --enforce-eager --enable-chunked-prefill --gpu-memory-utilization 0.85 --disable-log-requests --port 8000' Restart=always RestartSec=10 Environment="NO_PROXY=localhost,127.0.0.1,hf.co" [Install] WantedBy=multi-user.target

启用：sudo systemctl daemon-reload && sudo systemctl enable vllm-glm47flash && sudo systemctl start vllm-glm47flash。从此，vLLM崩溃后10秒内自动重启，无需人工干预。

5. 场景化扩展：从单机推理到边缘集群的三阶演进路径

5.1 第一阶：单机多卡协同——如何用两块RTX 4090突破32K上下文？

单卡RTX 4090显存24GB，跑--max-model-len 32768已逼近极限。若需处理128K文档，必须上双卡。但vLLM的tensor parallel不支持GLM-4.7-Flash，怎么办？答案是pipeline parallel + manual chunking。我们将长文档切分为32K chunks，用--pipeline-parallel-size 2，让第一块卡处理前16K，第二块卡处理后16K，中间用torch.distributed传递KV Cache。具体步骤：