当前位置: 首页 > news >正文

Mac 本地 AI 跑得慢?Rapid-MLX:Apple Silicon 上最快的本地 AI 引擎,比 Ollama 快 4.2 倍

用 Mac 跑本地模型,Ollama 固然是个顺手的选择;但它终究跑着 C++ 的那一套,没能彻底榨干 Apple Silicon 的算力。

这也就让 Rapid-MLX 有了插足的空间。它借着 Apple 自家的 MLX 框架与 Metal 计算内核,把统一内存架构的底子吃透了。在 Mac Studio M3 Ultra 上跑 Qwen3.5-4B,速度能顶到每秒 160 个 token,足足比 Ollama 快了 4.2 倍;哪怕换成 122B 的庞然大物,也能维持在每秒 57 个 token。几百字的回答不到两秒钟就在本地机器上滚完了,既不用往云端传数据,也省了那笔 API 计费。

算力释放还只是个底子,真拿来干活,往往卡在工具调用上。如今的 AI 编程助手诸如 Cursor、Claude Code 或 Aider,全指望模型能精准调用代码里的函数。Rapid-MLX 兜底了 17 种解析器,将 Qwen、DeepSeek、GLM、Llama 与 Gemma 等主流家族悉数囊括在内。

量化模型时不时会犯傻,把该输出的代码指令吐成一堆普通文本;它倒是加了个自动修复的动作,一旦检测到错位,便强行转回结构化格式。在此类边界场景下,Ollama 和 llama.cpp 往往只能吃瘪。

至于多轮对话里越来越长的首字延迟,传统的 KV cache 机制每轮都要重算前文,硬生生拖慢了响应。Rapid-MLX 在这里使了两招:遇上普通 Transformer 模型,便做 KV cache 裁剪,单单扣出公共前缀保留下来;若是撞见 Qwen3.5 这类 Gated DeltaNet 与 attention 混搭的架构,就直接上状态快照,把 RNN 层的状态存好,下一轮对话当场恢复,耗时不过 0.1 毫秒。倘若缓存命中,首字延迟便能死死压在 0.08 秒——哪怕跟它聊上十几轮,吐第一个字的速度也与初见时无异。

它的接口也顺着业界的习惯,原封不动地照搬了整套 OpenAI API,从文本补全、向量化、音频转写一路做到语音合成,甚至顺手接上了 Anthropic 的 messages 接口。诸如 Cursor、Continue.dev 或是 Open WebUI 等现成工具一行代码都不用改,把 base_url 往 localhost:8000 一指,原本调 ChatGPT 的应用就直接切进了本地内存。要是嫌本地机器处理长文本太吃力,它也备着一手云路由,能悄无声息地把请求抛给云端大模型,全凭程序在后台调度。

这条路径显然极度挑剔硬件——只认 Apple Silicon,Intel 芯片与 Windows 系统悉数被拒之门外;多模态功能得额外挂载依赖,内存大小更是成了硬约束,16GB 的 MacBook Air 撑死也就跑个 4B 左右的小模型。硬件的门槛摆在那里;不过摆脱了云服务商的脸色,也就彻底绝了 API 涨价停服、或是数据被偷偷拿去练下一代模型的后患。Rapid-MLX 无非是把门缝又推开了一点:趁着硬件还能扛,把算力实打实地扣在自己手里。

https://github.com/raullenchai/Rapid-MLX

http://www.jsqmd.com/news/762694/

相关文章:

  • R语言VaR计算提速17倍的秘密:向量化替代for循环+Rcpp加速核心计算(附benchmark对比表与内存优化清单)
  • KeepChatGPT:浏览器脚本如何彻底优化ChatGPT网页版体验
  • 终极魔兽争霸3优化指南:如何免费实现180帧流畅体验和宽屏支持
  • 3分钟掌握微信聊天记录解密:本地化数据恢复终极指南
  • Lumibot量化交易框架:从策略回测到实盘部署的Python实战指南
  • Portenta H7 Lite Connected开发板:工业物联网的高性价比解决方案
  • 人类增强技术(HET)的社会撕裂与缝合——基于“拓扑公平”与“九元伦理”的正义重构(世毫九实验室原创研究)
  • 阿拉伯语低比特率LPC声码器的VLSI实现与优化
  • 2026年必备:4招快速去除论文AI痕迹,轻松通过AI检测 - 降AI实验室
  • 自托管AI生活助理LifeSync-AI:从信息孤岛到智能枢纽的实战指南
  • TegraRcmGUI完整指南:从零开始掌握Switch系统注入的终极教程
  • Cursor智能体开发:网络、代理与远程连接
  • MB-Lab与ManuelBastioniLAB对比分析:项目演进与未来发展
  • 从零到一:用Activiti 7.1.0.M5 + MyBatis-Plus构建一个可运行的请假审批Demo(附完整代码)
  • 为什么ok-ww是鸣潮玩家的终极时间管理神器?
  • 别再乱配了!Spring Cache中redis.key-prefix的正确用法与模块化缓存隔离实战
  • 别再乱删文件了!聊聊SSD的TRIM指令和写入放大,如何让你的硬盘多用几年
  • 以天地之公心写 ABAP,用无偏、守界、少私意的方式做系统
  • 全平台网盘直链下载解决方案:告别会员限速的完整指南
  • 2026年珠海翠湖香山装修公司排名,哪家靠谱? - mypinpai
  • 2026年5月成都值得信赖的GEO外包公司,TOP6权威排行榜新鲜出炉!成都GEO公司/成都AI搜索/成都GEO - 品牌推荐官方
  • 从LeetCode实战出发:欧拉筛 vs 埃氏筛,在计数质数问题里到底该用哪个?
  • Ubuntu 20.04 + RTX 4090 保姆级教程:从零搭建BEVFormer训练环境(含避坑指南)
  • 为开源AI智能体框架OpenClaw配置Taotoken作为模型供应商的步骤
  • 3分钟实现Mac微信防撤回:WeChatIntercept完整指南
  • 实测 20 款玻色因抗皱面霜,仅 10 款值得入!2026 测评后推荐 10 款口碑好有效抗皱面霜品牌! - 博客万
  • Hey数据运维:从零开始的去中心化社交应用数据库管理与优化完整指南
  • 百度网盘直链解析终极指南:3步告别下载限速
  • 提升虚拟环境测试效率:快马一键生成系统检测工具
  • 万州保洁哪个好 - 品牌企业推荐师(官方)