当前位置：首页 > news >正文

MLX-4bit 量化版未进行独立评测：KyleHessling1/Qwopus-GLM-18B-Healed-MLX-4bit

news 2026/4/28 16:30:14

MLX-4bit 量化版未进行独立评测：KyleHessling1/Qwopus-GLM-18B-Healed-MLX-4bit

这个模型（KyleHessling1/Qwopus-GLM-18B-Healed-MLX-4bit）是作者针对 Apple Silicon（MLX 框架）专门量化的 4-bit 版本（约 8.4GB，effective 4.502 bits，group size 64）。其基准测试全部来自源模型 Qwopus-GLM-18B-Healed（64 层 frankenmerge + 1000-step QLoRA healing），作者在模型卡和 GGUF 仓库中提供了较为完整的评估数据。

主要测评亮点（44 项能力套件测试）

总分：40/44（90.9%），优于 Qwen 3.6-35B-A3B MoE 的 38/44（86.4%），且 VRAM 占用不到一半（GGUF Q4_K_M 仅 9.2GB vs 22GB）。
子类别表现（healed 版本）：
- Basic：6/6
- Reasoning：4/4
- Tool Calling：6/6（完美）
- Agentic：4/4（完美）
- Structured Output：2/2
- Context：2/3
- Multilingual：2/2
- Programming：12/15
- Performance：2/2

Healing 前 raw merge 为 39/44，healing 后提升 1 分（主要修复了编程中的 longest_substring 测试）。

前端压力测试（最亮眼的部分）

作者专门做了 6 个复杂 HTML/CSS/JS 生成任务，共 63 个检查点，62/63 通过（98.4%），输出无乱码、括号/标签完全平衡，支持现代特性（Flexbox/Grid、IntersectionObserver、SVG 图表、Canvas 游戏循环等）：

Weather Dashboard（14.5K 字符）：9/9
E-Commerce Product Page（16.7K）：12/12
Animated SaaS Landing（24.1K）：13/13
Analytics Dashboard（22.3K）：13/13
Multi-Step Registration（23.3K）：12/12
Snake Game（11.2K）：11/12（仅一个小 typo）

这表明模型在实际前端代码生成上表现极强，远超同尺寸预期。

MLX-4bit 版本说明：作者明确标注“未独立重测”，但属于标准 MLX affine 量化，质量应在正常 4-bit 方差范围内（社区反馈输出“stellar”、速度“snappy”）。在 M4 Pro 上实测可达约 23 tokens/s。

此外，Reddit 和 X（Twitter）上有零星用户反馈，普遍认为它是“消费者级 GPU/Mac 上性价比极高的 18B 模型”，适合填补 12B~35B 之间的空白。

它适应的场景

这个模型是Qwen3.5-9B 两个优秀微调版（Opus 推理蒸馏 + GLM-5.1 推理蒸馏）的 64 层 frankenmerge + healing，强项在于推理 + 工具 + Agent + 前端代码，同时体积小、适合本地部署。

最推荐场景：

Apple Silicon Mac 本地运行（MLX 框架）：16~24GB 统一内存即可流畅运行（甚至老 M1 16GB 机也能用），无需云端，隐私安全。
Agentic / Tool-use 任务：完美通过所有工具调用和 Agent 测试，适合构建自主代理、链式思考、函数调用工作流。
编程与前端开发：前端压力测试表现突出，适合生成复杂交互网页、仪表盘、游戏原型等（输出结构清晰、无语法错误）。
通用推理与对话：结合 Opus 和 GLM 的优势，CoT（链式思考）效果好，适合写作、分析、问题解决、多语言对话。
资源受限但要高性能的本地 LLM：想在消费级硬件上跑接近 35B MoE 能力的模型时，这款是极佳选择（速度快、显存低）。

不太适合的场景（客观提醒）：