当前位置: 首页 > news >正文

GLM-4.7-Flash 量化版本地部署,1 张 4090 开跑

1、下载模型

我选择的是这个 AWQ-4bit 量化版,原因 1 是它支持 vLLM 部署,原因 2 是它真的很小巧,把原版 58GB 压到了 17GB,原因 3 是压缩至此情况下,幻觉没有显著增加

modelscope download --model cyankiwi/GLM-4.7-Flash-AWQ-4bit

https://modelscope.cn/models/cyankiwi/GLM-4.7-Flash-AWQ-4bit/files

https://modelscope.cn/models/cyankiwi/GLM-4.7-Flash-AWQ-4bit/files

2、升级 vLLM@nightly

先声明:我没有选择此方法,但是官方教程提到了,大家可以试试

我遇到的问题是各种依赖相互干扰,烦死了。还有系统基础环境太差,又不敢升级,昨天DeepSeek-OCR-2 本地部署,实测一文中我有提到。

pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightly pip install git+https://github.com/huggingface/transformers.git

vLLM 巨大里程碑 一文中提到 vLLM 官网上线(https://vllm.ai/),这里面有个极友好的交互式 vLLM 安装选择器(GPU、CPU 等)

我选择的方式是 vLLM-Docker

https://hub.docker.com/r/vllm/vllm-openai/tags

https://hub.docker.com/r/vllm/vllm-openai/tags很简单,直接docker pull vllm/vllm-openai:nightly拉取镜像

这时还不行,因为即便是 nightly 版本,官方也没有支持 transformers 5.x

这里有个骚操作

新建一个 Dockfile

FROM vllm/vllm-openai:nightly RUN pip install transformers>=5.0.0rc2

然后自行打包 glm-4.7 专用镜像

docker build -t glm-4.7-custom .

新镜像就是 glm-4.7-custom,后面用它拉起模型,至此 vLLM 升级完成

3、启动模型

vllm 直接启动,我没有尝试

CUDA_VISIBLE_DEVICE=0,1 vllm server --model /data/models/GLM-4.7-Flash-AWQ-4bit \ --tensor-parallel-size 2 \ --tool-call-parser glm47 \ --reasoning-parser glm45 \ --enable-auto-tool-choice \ --served-model-name glm-4.7-flash

我的 docker 启动脚本如下,1张卡就能跑起来,这里我用了2张

默认 max-model-len 直接报 OOM,降到 10240,然后 max_num_seqs 设 10 才跑起来

docker run --rm --runtime=nvidia --gpus '"device=0,1"' --name GLM-4.7-Flash -p 3004:8000 -p 5005:8000 -v /data/models/GLM-4.7-Flash-AWQ-4bit:models glm-4.7-custom --model /models/GLM-4.7-Flash-AWQ-4bit \ --tensor-parallel-size 2 \ --tool-call-parser glm47 \ --reasoning-parser glm45 \ --enable-auto-tool-choice \ --served-model-name glm-4.7-flash \ --max-model-len 10240 \ --max_num_seqs 10 \ --host 0.0.0.0 \ --port 8000

运行没问题,我把它接入了 OpenwebUI

使用感受,思考太墨迹了,甚至超过 30s 的思考有点不习惯

生成速度倒是很不错

显存占用如下:

这个级别的模型解决点内网疑难杂症,甚至写点代码还是很不错的

不过大家想不到吧,我内网还在用着DeepSeek-R1-0528-Qwen3-8B(之前有介绍),时常给我惊喜

比如下面问题,它比 GLM 4.7 Flash 还靠谱,还只需要一张卡就能跑,思考极快。现在的大模型,哪有赢家通吃,各有千秋,没必要大炮打蚊子。就算是一张厕纸,一条底裤也有它本身的用处,更何况大模型乎。

如果在使用 GLM 4.7 Flash 时遇到循环或重复问题,可以尝试添加--temp 1.0 --min-p 0.01 --top-p 0.95 --dry-multiplier 1.1

我没遇到

http://www.jsqmd.com/news/1080142/

相关文章:

  • 5分钟快速上手:Balena Etcher - 最安全的跨平台镜像烧录工具终极指南
  • 从深思洛克到Virbox的软件安全演进
  • 3步轻松搞定Windows 11系统优化:告别臃肿,重获流畅体验
  • IntelliJ IDEA安装后中文乱码、Maven不识别、Git路径失效?——全栈工程师的12项初始化校准清单(含registry配置密钥)
  • 空间站构型升级背后的技术刚需:硬实时操作系统筑牢航天测控根基
  • Okbiye 数据分析功能:零基础搞定实证研究,自动生成可直接复用的论文数据报告
  • 全球覆盖广的海关数据哪个好用
  • 程序员面试“外挂“哪家强?2026年度10款AI面试工具全维度实测
  • 【Mac开发者必备指南】:2024最新IntelliJ IDEA安装全流程(含M1/M2芯片适配避坑清单)
  • 一键清掉C盘30G!这款C盘垃圾专清工具,让你彻底告别C盘不够用!
  • Javascript闭包的理解
  • 三分钟掌握Umi-CUT:批量图片去黑边的自动化解决方案
  • IntelliJ IDEA旗舰版安装常见陷阱全曝光:许可证绑定失效、Proxy劫持、Java 21兼容性断点(附JetBrains Support团队内部调试日志截图)
  • 每日热门skill:别手动做PPT了!这个OpenClaw Skill让我每天省出3小时,数据分析+PPT一键搞定
  • 如何彻底告别网盘限速:9大平台直链下载加速终极指南
  • Gamdl:用命令行下载 Apple Music 的全部内容
  • Blender 3MF插件终极指南:如何在Blender中实现3D打印文件无缝导入导出
  • Windows 11终极优化指南:用Win11Debloat免费清理系统臃肿
  • 3步永久解锁IDM:免费激活Internet Download Manager完整教程
  • 佛山市电动伸缩门厂家排名
  • 3大秘诀掌握DLSS版本管理:开源工具智能切换游戏超采样技术
  • Rust 内存模型的多线程可见性问题
  • 抖音评论数据自动化采集:如何用开源工具3分钟获取完整用户反馈
  • 单身证明公证怎么在线上办理?单身证明公证在国外可以办理吗?
  • 从OpenUSD、RTX到PhysX:工业级数字孪生平台的技术架构与实施路径
  • 香坊双工电子完善跨区域寄修流程 适配北方寒区对讲设备专项检修
  • 2026华南工业散热风扇十强榜单 山洋电气代理实测攻克风道阻抗难题
  • Blender 3MF插件终极指南:如何在Blender中轻松处理3D打印文件
  • 基于激光共聚焦显微镜的表面粗糙度测量与三维形貌分析
  • NVIDIA Profile Inspector 深度解析:解锁显卡隐藏性能的专业工具