MLX-4bit 量化版未进行独立评测:KyleHessling1/Qwopus-GLM-18B-Healed-MLX-4bit
这个模型(KyleHessling1/Qwopus-GLM-18B-Healed-MLX-4bit)是作者针对 Apple Silicon(MLX 框架)专门量化的 4-bit 版本(约 8.4GB,effective 4.502 bits,group size 64)。其基准测试全部来自源模型 Qwopus-GLM-18B-Healed(64 层 frankenmerge + 1000-step QLoRA healing),作者在模型卡和 GGUF 仓库中提供了较为完整的评估数据。
主要测评亮点(44 项能力套件测试)
- 总分:40/44(90.9%),优于 Qwen 3.6-35B-A3B MoE 的 38/44(86.4%),且 VRAM 占用不到一半(GGUF Q4_K_M 仅 9.2GB vs 22GB)。
- 子类别表现(healed 版本):
- Basic:6/6
- Reasoning:4/4
- Tool Calling:6/6(完美)
- Agentic:4/4(完美)
- Structured Output:2/2
- Context:2/3
- Multilingual:2/2
- Programming:12/15
- Performance:2/2
Healing 前 raw merge 为 39/44,healing 后提升 1 分(主要修复了编程中的 longest_substring 测试)。
前端压力测试(最亮眼的部分)
作者专门做了 6 个复杂 HTML/CSS/JS 生成任务,共 63 个检查点,62/63 通过(98.4%),输出无乱码、括号/标签完全平衡,支持现代特性(Flexbox/Grid、IntersectionObserver、SVG 图表、Canvas 游戏循环等):
- Weather Dashboard(14.5K 字符):9/9
- E-Commerce Product Page(16.7K):12/12
- Animated SaaS Landing(24.1K):13/13
- Analytics Dashboard(22.3K):13/13
- Multi-Step Registration(23.3K):12/12
- Snake Game(11.2K):11/12(仅一个 小 typo)
这表明模型在实际前端代码生成上表现极强,远超同尺寸预期。
MLX-4bit 版本说明:作者明确标注“未独立重测”,但属于标准 MLX affine 量化,质量应在正常 4-bit 方差范围内(社区反馈输出“stellar”、速度“snappy”)。在 M4 Pro 上实测可达约 23 tokens/s。
此外,Reddit 和 X(Twitter)上有零星用户反馈,普遍认为它是“消费者级 GPU/Mac 上性价比极高的 18B 模型”,适合填补 12B~35B 之间的空白。
它适应的场景
这个模型是Qwen3.5-9B 两个优秀微调版(Opus 推理蒸馏 + GLM-5.1 推理蒸馏)的 64 层 frankenmerge + healing,强项在于推理 + 工具 + Agent + 前端代码,同时体积小、适合本地部署。
最推荐场景:
- Apple Silicon Mac 本地运行(MLX 框架):16~24GB 统一内存即可流畅运行(甚至老 M1 16GB 机也能用),无需云端,隐私安全。
- Agentic / Tool-use 任务:完美通过所有工具调用和 Agent 测试,适合构建自主代理、链式思考、函数调用工作流。
- 编程与前端开发:前端压力测试表现突出,适合生成复杂交互网页、仪表盘、游戏原型等(输出结构清晰、无语法错误)。
- 通用推理与对话:结合 Opus 和 GLM 的优势,CoT(链式思考)效果好,适合写作、分析、问题解决、多语言对话。
- 资源受限但要高性能的本地 LLM:想在消费级硬件上跑接近 35B MoE 能力的模型时,这款是极佳选择(速度快、显存低)。
不太适合的场景(客观提醒):
- 需要极致编程精度(如必须通过所有 15 个编程测试)的专业编码环境(仍有 3 个失败项)。
- 超长上下文或极大规模生产部署(虽然支持 262k 上下文,但它更偏向高效本地使用)。
- 纯中文超高密度输出(虽支持多语言,但中文密度不是绝对顶尖)。
总体来说,这是一个专为 Apple Silicon 优化、性能够强、性价比极高的开源模型,特别适合 Mac 用户做本地 Agent、前端开发或日常推理任务。如果你有 M 系列 Mac,强烈推荐直接用 mlx-lm 试跑,体验会很丝滑。
