当前位置: 首页 > news >正文

**MLX-4bit 量化版独立评测:KyleHessling1/Qwopus-GLM-18B-Healed-MLX-4bit**

MLX-4bit 量化版独立评测:KyleHessling1/Qwopus-GLM-18B-Healed-MLX-4bit

这个模型(KyleHessling1/Qwopus-GLM-18B-Healed-MLX-4bit)是作者针对 Apple Silicon(MLX 框架)专门量化的 4-bit 版本(约 8.4GB,effective 4.502 bits,group size 64)。其基准测试全部来自源模型 Qwopus-GLM-18B-Healed(64 层 frankenmerge + 1000-step QLoRA healing),作者在模型卡和 GGUF 仓库中提供了较为完整的评估数据。

主要测评亮点(44 项能力套件测试)

  • 总分40/44(90.9%),优于 Qwen 3.6-35B-A3B MoE 的 38/44(86.4%),且 VRAM 占用不到一半(GGUF Q4_K_M 仅 9.2GB vs 22GB)。
  • 子类别表现(healed 版本):
    • Basic:6/6
    • Reasoning:4/4
    • Tool Calling:6/6(完美)
    • Agentic:4/4(完美)
    • Structured Output:2/2
    • Context:2/3
    • Multilingual:2/2
    • Programming:12/15
    • Performance:2/2

Healing 前 raw merge 为 39/44,healing 后提升 1 分(主要修复了编程中的 longest_substring 测试)。

前端压力测试(最亮眼的部分)

作者专门做了 6 个复杂 HTML/CSS/JS 生成任务,共 63 个检查点,62/63 通过(98.4%),输出无乱码、括号/标签完全平衡,支持现代特性(Flexbox/Grid、IntersectionObserver、SVG 图表、Canvas 游戏循环等):

  • Weather Dashboard(14.5K 字符):9/9
  • E-Commerce Product Page(16.7K):12/12
  • Animated SaaS Landing(24.1K):13/13
  • Analytics Dashboard(22.3K):13/13
  • Multi-Step Registration(23.3K):12/12
  • Snake Game(11.2K):11/12(仅一个 小 typo)

这表明模型在实际前端代码生成上表现极强,远超同尺寸预期。

MLX-4bit 版本说明:作者明确标注“未独立重测”,但属于标准 MLX affine 量化,质量应在正常 4-bit 方差范围内(社区反馈输出“stellar”、速度“snappy”)。在 M4 Pro 上实测可达约 23 tokens/s。

此外,Reddit 和 X(Twitter)上有零星用户反馈,普遍认为它是“消费者级 GPU/Mac 上性价比极高的 18B 模型”,适合填补 12B~35B 之间的空白。

它适应的场景

这个模型是Qwen3.5-9B 两个优秀微调版(Opus 推理蒸馏 + GLM-5.1 推理蒸馏)的 64 层 frankenmerge + healing,强项在于推理 + 工具 + Agent + 前端代码,同时体积小、适合本地部署。

最推荐场景

  • Apple Silicon Mac 本地运行(MLX 框架):16~24GB 统一内存即可流畅运行(甚至老 M1 16GB 机也能用),无需云端,隐私安全。
  • Agentic / Tool-use 任务:完美通过所有工具调用和 Agent 测试,适合构建自主代理、链式思考、函数调用工作流。
  • 编程与前端开发:前端压力测试表现突出,适合生成复杂交互网页、仪表盘、游戏原型等(输出结构清晰、无语法错误)。
  • 通用推理与对话:结合 Opus 和 GLM 的优势,CoT(链式思考)效果好,适合写作、分析、问题解决、多语言对话。
  • 资源受限但要高性能的本地 LLM:想在消费级硬件上跑接近 35B MoE 能力的模型时,这款是极佳选择(速度快、显存低)。

不太适合的场景(客观提醒):

  • 需要极致编程精度(如必须通过所有 15 个编程测试)的专业编码环境(仍有 3 个失败项)。
  • 超长上下文或极大规模生产部署(虽然支持 262k 上下文,但它更偏向高效本地使用)。
  • 纯中文超高密度输出(虽支持多语言,但中文密度不是绝对顶尖)。

总体来说,这是一个专为 Apple Silicon 优化、性能够强、性价比极高的开源模型,特别适合 Mac 用户做本地 Agent、前端开发或日常推理任务。如果你有 M 系列 Mac,强烈推荐直接用 mlx-lm 试跑,体验会很丝滑。

http://www.jsqmd.com/news/714724/

相关文章:

  • AgentCorral:可视化集中管理Claude Code配置,告别JSON碎片化
  • 在Ubuntu 20.04上编译OnnxRuntime C++库,我踩过的那些坑(附完整配置流程)
  • 揭秘西门子、博世、华为HiCar联合提交的C++27协程提案附件B:37个真实产线故障案例中,86%源于await_suspend异常传播缺失
  • 如何高效保护键盘输入:iwck一键锁定键盘解决方案
  • AI Agent通信协议全景解读:MCP、ACP、A2A、ANP
  • AI原生应用框架lobu:快速构建与部署大语言模型应用
  • 告别调试烦恼:用C# Winform为欧姆龙PLC快速打造一个专属通讯调试助手
  • OBS虚拟背景插件终极指南:3步实现AI智能抠像的完整教程
  • 【含最新安装包】OpenClaw v2.6.6 安装指南|办公自动化神器
  • 5步掌握SD-PPP:Photoshop AI插件深度集成方案
  • Wan2.2-TI2V-5B终极部署指南:如何在本地运行720P高清AI视频生成
  • LangChain4j工作流编排深度解析:构建企业级AI智能体的5大核心模式
  • 春联生成模型-中文-base入门指南:避免‘福如东海’类固定搭配的创意突破技巧
  • 企业级开源项目管理平台:OpenProject深度应用与集成指南
  • 告别卡顿!STM32F407驱动ILI9341屏幕,用DMA+LVGL实现丝滑UI(RT-Thread实战)
  • LibreHardwareMonitor:终极硬件监控解决方案,让你的电脑健康一目了然
  • MediaFire批量下载工具:一键下载整个文件夹的终极指南
  • HTTPS 证书配置完全指南:从申请到自动化续期
  • 2026年昆明代理记账与工商变更全生命周期服务深度评测:云南本土企业财税合伙人选型指南 - 优质企业观察收录
  • TDA4VM与J721E选型指南:手把手教你评估算力、成本与开发周期,避开‘印度支持’的坑
  • 从vfork到写时复制:深入Linux进程创建的底层机制与性能选择
  • 网络安全学习第172天
  • 别再只用mdadm了!试试用LVM命令lvcreate直接创建RAID5阵列(附详细参数解析)
  • C++ com编程学习详解
  • 别再死记硬背了!用Vector Davinci Configurator实战理解AutoSar RTE的S/R Port
  • 为什么你的C++控制模块通不过ISO 26262 ASIL-B评审?(2024最新SGS审核清单+12处隐性非符合项逐行标注)
  • 跨平台鼠标自动化:提升工作效率的智能解决方案
  • 2026年云南代理记账与昆明工商变更全生命周期服务深度横评指南 - 优质企业观察收录
  • 3步智能配置黑苹果:OpCore-Simplify零基础EFI生成解决方案
  • 告别反向传播?Hinton新论文里的Forward-Forward算法,到底是个啥?