当前位置：首页 > news >正文

Redis之父antirez发布DeepSeek V4 Flash专用推理引擎，128GB MacBook本地跑284B参数大模型

news 2026/5/11 3:11:38

Salvatore Sanfilippo（antirez）—— 那个写出 Redis 的意大利程序员，最近在 GitHub 上发布了新开源项目：ds4.c，一个专为 DeepSeek V4 Flash 设计的原生推理引擎。

ds4 的核心设计围绕 Metal GPU 展开，CPU 路径仅保留调试用途，服务器模式更是完全 Metal-only。

项目发布不到两天就收获了 2600+ Star，迅速成为本地大模型推理圈子里的热门话题。

ds4 GitHub仓库

一、为什么只服务一个模型？

antirez 在开篇就亮明了态度：这不是通用 GGUF 加载器，不是其他运行时的包装壳，也不是框架。ds4.c 的核心路径是一个DeepSeek V4 Flash 专用的 Metal 图执行器(graph executor)，从模型加载、提示词渲染、KV 状态管理到 Server API 胶水层，全部围绕这一个模型量身定制。

他认为 DeepSeek V4 Flash 值得这种「专人专事」的待遇，理由很充分：

激活参数量更少，推理更快。虽然总参数量达到 284B，但 MoE 架构下实际激活的参数远小于同级别的密集模型。
Thinking 模式可控。在非最大思考模式下，V4 Flash 的思考过程长度往往只有其他模型的 1/5，且思考长度与问题复杂度成正比。这意味着在其他模型开启 thinking 后几乎无法使用的场景下，V4 Flash 依然流畅可用。
上下文窗口高达 100 万 Token。对于需要吞入整个代码库或长文档的 Agent 场景，这是决定性优势。
知识边界更深。284B 参数在知识边缘的采样能力远超 27B 或 35B 的小模型，尤其在专业领域问题上差距明显。
KV Cache 极度压缩。配合现代 MacBook 的高速 SSD，KV Cache 不再是内存的「房客」，而是磁盘的「一等公民」—— 长上下文推理可以在本地个人电脑上完成，甚至支持磁盘 KV 持久化。
2-bit 量化表现优异。经过特殊非对称量化后（仅路由专家量化，共享专家和投影层保持原精度），2-bit 版本在编码 Agent 和工具调用场景下表现可靠，128GB 内存的 MacBook 即可运行。

二、速度有多快？

antirez 公布了一组 Metal CLI 实测数据（贪婪解码，256 Token 输出）：

机器	量化	预填充（短提示）	生成速度
MacBook Pro M3 Max 128GB	q2	58.52 t/s	26.68 t/s
Mac Studio M3 Ultra 512GB	q2	84.43 t/s	36.86 t/s
Mac Studio M3 Ultra 512GB	q4	78.95 t/s	35.50 t/s

长上下文预填充更夸张：M3 Ultra 处理 11709 Token 的提示时，预填充速度达到 468.03 t/s。这个速度意味着即使塞入一本中等长度的书作为上下文，模型也能在几十秒内完成预热并开始生成。

ds4性能数据

三、CLI + Server 双模式

编译只需要一个make。项目提供两个二进制文件：

ds4：交互式 CLI，默认开启 thinking 模式，支持多轮对话、上下文调节、文件读取等命令。每次对话都会保留 Metal KV 检查点，下一轮直接续写。
ds4-server：兼容 OpenAI 和 Anthropic 协议的本地 HTTP 服务。支持/v1/chat/completions、/v1/messages等端点，SSE 流式输出，工具调用，thinking 模式原生流式返回。

ds4 Server API

四、磁盘 KV Cache：会话永不过期

ds4-server 针对 Agent 客户端「每次请求重发整段对话」的痛点，设计了一套磁盘 KV Cache 机制。启动时指定--kv-disk-dir，服务器会将对话前缀的 KV 状态以 SHA1 为键写入磁盘。当新的无状态请求到达时，如果前缀匹配，就直接从磁盘恢复 KV 状态，跳过重复预填充。

antirez 对此的比喻很直接：「KV Cache 不应该只住在内存里，它应该成为磁盘的一等公民。」在 128GB 机器上运行 2-bit 模型时，合理配置 10~30 万 Token 的上下文窗口，搭配磁盘缓存，足以让本地编码 Agent 获得接近有状态服务的体验。

五、 Claude Code 也能接本地 DS4

项目 README 详细给出了与主流 Agent 工具的对接方案：

Claude Code：通过 Anthropic 兼容端点 + 环境变量包装脚本，直接把claude命令指向本地 ds4-server。作者特别提醒，Claude Code 的初始 prompt 往往有 25k Token，务必开启磁盘 KV 缓存。
Pi：在models.json中添加 ds4 provider 配置，支持 thinking 等级映射。
opencode：通过 OpenAI 兼容端点接入，配置 context limit 和 output limit。

六、一个坦诚的声明

antirez 在 README 中放了一段少见的坦白：「这个软件是在 GPT 5.5 的强力辅助下开发的，人类负责主导思路、测试和调试。我们公开说明这一点，因为它塑造了项目的构建方式。如果你对 AI 生成的代码不满意，这款软件不适合你。」

antirez/ds4 仓库地址: https://github.com/antirez/ds4

查看全文

http://www.jsqmd.com/news/793262/