当前位置：首页 > news >正文

Mac 本地 AI 跑得慢？Rapid-MLX：Apple Silicon 上最快的本地 AI 引擎，比 Ollama 快 4.2 倍

news 2026/7/8 2:02:17

用 Mac 跑本地模型，Ollama 固然是个顺手的选择；但它终究跑着 C++ 的那一套，没能彻底榨干 Apple Silicon 的算力。

这也就让 Rapid-MLX 有了插足的空间。它借着 Apple 自家的 MLX 框架与 Metal 计算内核，把统一内存架构的底子吃透了。在 Mac Studio M3 Ultra 上跑 Qwen3.5-4B，速度能顶到每秒 160 个 token，足足比 Ollama 快了 4.2 倍；哪怕换成 122B 的庞然大物，也能维持在每秒 57 个 token。几百字的回答不到两秒钟就在本地机器上滚完了，既不用往云端传数据，也省了那笔 API 计费。

算力释放还只是个底子，真拿来干活，往往卡在工具调用上。如今的 AI 编程助手诸如 Cursor、Claude Code 或 Aider，全指望模型能精准调用代码里的函数。Rapid-MLX 兜底了 17 种解析器，将 Qwen、DeepSeek、GLM、Llama 与 Gemma 等主流家族悉数囊括在内。

量化模型时不时会犯傻，把该输出的代码指令吐成一堆普通文本；它倒是加了个自动修复的动作，一旦检测到错位，便强行转回结构化格式。在此类边界场景下，Ollama 和 llama.cpp 往往只能吃瘪。

至于多轮对话里越来越长的首字延迟，传统的 KV cache 机制每轮都要重算前文，硬生生拖慢了响应。Rapid-MLX 在这里使了两招：遇上普通 Transformer 模型，便做 KV cache 裁剪，单单扣出公共前缀保留下来；若是撞见 Qwen3.5 这类 Gated DeltaNet 与 attention 混搭的架构，就直接上状态快照，把 RNN 层的状态存好，下一轮对话当场恢复，耗时不过 0.1 毫秒。倘若缓存命中，首字延迟便能死死压在 0.08 秒——哪怕跟它聊上十几轮，吐第一个字的速度也与初见时无异。

它的接口也顺着业界的习惯，原封不动地照搬了整套 OpenAI API，从文本补全、向量化、音频转写一路做到语音合成，甚至顺手接上了 Anthropic 的 messages 接口。诸如 Cursor、Continue.dev 或是 Open WebUI 等现成工具一行代码都不用改，把 base_url 往 localhost:8000 一指，原本调 ChatGPT 的应用就直接切进了本地内存。要是嫌本地机器处理长文本太吃力，它也备着一手云路由，能悄无声息地把请求抛给云端大模型，全凭程序在后台调度。

这条路径显然极度挑剔硬件——只认 Apple Silicon，Intel 芯片与 Windows 系统悉数被拒之门外；多模态功能得额外挂载依赖，内存大小更是成了硬约束，16GB 的 MacBook Air 撑死也就跑个 4B 左右的小模型。硬件的门槛摆在那里；不过摆脱了云服务商的脸色，也就彻底绝了 API 涨价停服、或是数据被偷偷拿去练下一代模型的后患。Rapid-MLX 无非是把门缝又推开了一点：趁着硬件还能扛，把算力实打实地扣在自己手里。

https://github.com/raullenchai/Rapid-MLX

查看全文

http://www.jsqmd.com/news/762694/