当前位置: 首页 > news >正文

**MLX-4bit 量化版未进行独立评测:KyleHessling1/Qwopus-GLM-18B-Healed-MLX-4bit**

MLX-4bit 量化版未进行独立评测:KyleHessling1/Qwopus-GLM-18B-Healed-MLX-4bit

这个模型(KyleHessling1/Qwopus-GLM-18B-Healed-MLX-4bit)是作者针对 Apple Silicon(MLX 框架)专门量化的 4-bit 版本(约 8.4GB,effective 4.502 bits,group size 64)。其基准测试全部来自源模型 Qwopus-GLM-18B-Healed(64 层 frankenmerge + 1000-step QLoRA healing),作者在模型卡和 GGUF 仓库中提供了较为完整的评估数据。

主要测评亮点(44 项能力套件测试)

  • 总分40/44(90.9%),优于 Qwen 3.6-35B-A3B MoE 的 38/44(86.4%),且 VRAM 占用不到一半(GGUF Q4_K_M 仅 9.2GB vs 22GB)。
  • 子类别表现(healed 版本):
    • Basic:6/6
    • Reasoning:4/4
    • Tool Calling:6/6(完美)
    • Agentic:4/4(完美)
    • Structured Output:2/2
    • Context:2/3
    • Multilingual:2/2
    • Programming:12/15
    • Performance:2/2

Healing 前 raw merge 为 39/44,healing 后提升 1 分(主要修复了编程中的 longest_substring 测试)。

前端压力测试(最亮眼的部分)

作者专门做了 6 个复杂 HTML/CSS/JS 生成任务,共 63 个检查点,62/63 通过(98.4%),输出无乱码、括号/标签完全平衡,支持现代特性(Flexbox/Grid、IntersectionObserver、SVG 图表、Canvas 游戏循环等):

  • Weather Dashboard(14.5K 字符):9/9
  • E-Commerce Product Page(16.7K):12/12
  • Animated SaaS Landing(24.1K):13/13
  • Analytics Dashboard(22.3K):13/13
  • Multi-Step Registration(23.3K):12/12
  • Snake Game(11.2K):11/12(仅一个 小 typo)

这表明模型在实际前端代码生成上表现极强,远超同尺寸预期。

MLX-4bit 版本说明:作者明确标注“未独立重测”,但属于标准 MLX affine 量化,质量应在正常 4-bit 方差范围内(社区反馈输出“stellar”、速度“snappy”)。在 M4 Pro 上实测可达约 23 tokens/s。

此外,Reddit 和 X(Twitter)上有零星用户反馈,普遍认为它是“消费者级 GPU/Mac 上性价比极高的 18B 模型”,适合填补 12B~35B 之间的空白。

它适应的场景

这个模型是Qwen3.5-9B 两个优秀微调版(Opus 推理蒸馏 + GLM-5.1 推理蒸馏)的 64 层 frankenmerge + healing,强项在于推理 + 工具 + Agent + 前端代码,同时体积小、适合本地部署。

最推荐场景

  • Apple Silicon Mac 本地运行(MLX 框架):16~24GB 统一内存即可流畅运行(甚至老 M1 16GB 机也能用),无需云端,隐私安全。
  • Agentic / Tool-use 任务:完美通过所有工具调用和 Agent 测试,适合构建自主代理、链式思考、函数调用工作流。
  • 编程与前端开发:前端压力测试表现突出,适合生成复杂交互网页、仪表盘、游戏原型等(输出结构清晰、无语法错误)。
  • 通用推理与对话:结合 Opus 和 GLM 的优势,CoT(链式思考)效果好,适合写作、分析、问题解决、多语言对话。
  • 资源受限但要高性能的本地 LLM:想在消费级硬件上跑接近 35B MoE 能力的模型时,这款是极佳选择(速度快、显存低)。

不太适合的场景(客观提醒):

  • 需要极致编程精度(如必须通过所有 15 个编程测试)的专业编码环境(仍有 3 个失败项)。
  • 超长上下文或极大规模生产部署(虽然支持 262k 上下文,但它更偏向高效本地使用)。
  • 纯中文超高密度输出(虽支持多语言,但中文密度不是绝对顶尖)。

总体来说,这是一个专为 Apple Silicon 优化、性能够强、性价比极高的开源模型,特别适合 Mac 用户做本地 Agent、前端开发或日常推理任务。如果你有 M 系列 Mac,强烈推荐直接用 mlx-lm 试跑,体验会很丝滑。

http://www.jsqmd.com/news/714679/

相关文章:

  • Vue CLI代理配置进阶:从单后端到多服务联调,你的devServer.proxy真的写对了吗?
  • CodeCombat终极指南:如何在游戏中快速掌握编程技能
  • 广西大学机械复试上岸学长亲授:从材料准备到导师联系,这份保姆级避坑指南请收好
  • 2026蒸烤一体机哪个牌子好?这个全球首创品牌已成高端豪宅标配 - 博客万
  • 嵌入式 - 在VMware中安装Ubuntu虚拟机 - 阿源
  • 2026硅胶机械手品牌测评:不同场景适配方案解析 - 品牌2026
  • 用Python+OpenCV手搓一个鼠标轨迹预测器:从零理解卡尔曼滤波的‘预测-校正’循环
  • Java开发农业物联网平台必须掌握的6项硬核能力,第4项连高级工程师都常忽略!
  • 忍者像素绘卷微信小程序开发:生成历史记录本地存储与导出功能
  • 如何快速解决Cursor Pro限制:Cursor Free VIP完整使用指南
  • Win11Debloat终极指南:如何简单快速优化Windows系统性能
  • 在信创环境下,如何判断一套用户行为分析系统是否“真正可用”?
  • 从设备选型到厂家选择:堆垛机厂家全维解析 - 品牌评测官
  • 工业配料设备采购必看:2026配料称重系统与手工配料称重系统厂家选型避坑全解析 - 品牌推荐大师1
  • 招聘背景核验程序,过往工作,证书上链,企业快速核验,杜绝简历造假,
  • 长沙福麟家居设计:浏阳比较好的木方断裂加固公司 - LYL仔仔
  • K8s集群里Nginx和Traefik怎么和平共处?一个真实场景下的双Ingress Controller配置实战
  • 保姆级避坑指南:SpringBoot 2.x + Undertow + Nacos 2.x 微服务平滑下线全流程配置
  • 5分钟掌握D2RML:暗黑2重制版多开管理终极解决方案
  • Allegro 17.4 布线前必做:手把手教你搞定过孔、差分对和信号分组(附工厂工艺参数)
  • 2026年4月河南韩式/花店创业/花艺软装/ 婚礼婚车/花艺培训口碑学校深度分析 - 2026年企业推荐榜
  • 从ISO标准到实战避坑:搞懂激光光束直径的D4σ、1/e²、FWHM到底该怎么选?
  • YOLO26 识别验证码
  • 如何让Windows 11性能飙升:Win11Debloat系统优化完整指南
  • 猫抓浏览器扩展:三步掌握网页视频资源嗅探与下载的完整指南
  • 2026年昆明代理记账与工商变更一站式企业财税服务深度横评 - 优质企业观察收录
  • 终极XXMI启动器教程:一站式管理所有二次元游戏模组的完整指南
  • 2026年昆明代理记账与曲靖工商变更一站式财税服务深度横评 - 优质企业观察收录
  • egergergeeert网页版使用详解:无需代码,3步完成高质量插画生成
  • 2026点胶机厂家推荐排行 工业级耐用+储能专用 高效适配全场景 - 极欧测评