当前位置: 首页 > news >正文

Redis之父antirez发布DeepSeek V4 Flash专用推理引擎,128GB MacBook本地跑284B参数大模型

Salvatore Sanfilippo(antirez)—— 那个写出 Redis 的意大利程序员,最近在 GitHub 上发布了新开源项目:ds4.c,一个专为 DeepSeek V4 Flash 设计的原生推理引擎。

ds4 的核心设计围绕 Metal GPU 展开,CPU 路径仅保留调试用途,服务器模式更是完全 Metal-only。

项目发布不到两天就收获了 2600+ Star,迅速成为本地大模型推理圈子里的热门话题。

ds4 GitHub仓库

一、为什么只服务一个模型?

antirez 在开篇就亮明了态度:这不是通用 GGUF 加载器,不是其他运行时的包装壳,也不是框架。ds4.c 的核心路径是一个DeepSeek V4 Flash 专用的 Metal 图执行器(graph executor),从模型加载、提示词渲染、KV 状态管理到 Server API 胶水层,全部围绕这一个模型量身定制。

他认为 DeepSeek V4 Flash 值得这种「专人专事」的待遇,理由很充分:

  • 激活参数量更少,推理更快。虽然总参数量达到 284B,但 MoE 架构下实际激活的参数远小于同级别的密集模型。
  • Thinking 模式可控。在非最大思考模式下,V4 Flash 的思考过程长度往往只有其他模型的 1/5,且思考长度与问题复杂度成正比。这意味着在其他模型开启 thinking 后几乎无法使用的场景下,V4 Flash 依然流畅可用。
  • 上下文窗口高达 100 万 Token。对于需要吞入整个代码库或长文档的 Agent 场景,这是决定性优势。
  • 知识边界更深。284B 参数在知识边缘的采样能力远超 27B 或 35B 的小模型,尤其在专业领域问题上差距明显。
  • KV Cache 极度压缩。配合现代 MacBook 的高速 SSD,KV Cache 不再是内存的「房客」,而是磁盘的「一等公民」—— 长上下文推理可以在本地个人电脑上完成,甚至支持磁盘 KV 持久化。
  • 2-bit 量化表现优异。经过特殊非对称量化后(仅路由专家量化,共享专家和投影层保持原精度),2-bit 版本在编码 Agent 和工具调用场景下表现可靠,128GB 内存的 MacBook 即可运行

二、速度有多快?

antirez 公布了一组 Metal CLI 实测数据(贪婪解码,256 Token 输出):

机器量化预填充(短提示)生成速度
MacBook Pro M3 Max 128GBq258.52 t/s26.68 t/s
Mac Studio M3 Ultra 512GBq284.43 t/s36.86 t/s
Mac Studio M3 Ultra 512GBq478.95 t/s35.50 t/s

长上下文预填充更夸张:M3 Ultra 处理 11709 Token 的提示时,预填充速度达到 468.03 t/s。这个速度意味着即使塞入一本中等长度的书作为上下文,模型也能在几十秒内完成预热并开始生成。

ds4性能数据

三、CLI + Server 双模式

编译只需要一个make。项目提供两个二进制文件:

  • ds4:交互式 CLI,默认开启 thinking 模式,支持多轮对话、上下文调节、文件读取等命令。每次对话都会保留 Metal KV 检查点,下一轮直接续写。
  • ds4-server:兼容 OpenAI 和 Anthropic 协议的本地 HTTP 服务。支持/v1/chat/completions/v1/messages等端点,SSE 流式输出,工具调用,thinking 模式原生流式返回。
ds4 Server API

四、磁盘 KV Cache:会话永不过期

ds4-server 针对 Agent 客户端「每次请求重发整段对话」的痛点,设计了一套磁盘 KV Cache 机制。启动时指定--kv-disk-dir,服务器会将对话前缀的 KV 状态以 SHA1 为键写入磁盘。当新的无状态请求到达时,如果前缀匹配,就直接从磁盘恢复 KV 状态,跳过重复预填充。

antirez 对此的比喻很直接:「KV Cache 不应该只住在内存里,它应该成为磁盘的一等公民。」在 128GB 机器上运行 2-bit 模型时,合理配置 10~30 万 Token 的上下文窗口,搭配磁盘缓存,足以让本地编码 Agent 获得接近有状态服务的体验。

五、 Claude Code 也能接本地 DS4

项目 README 详细给出了与主流 Agent 工具的对接方案:

  • Claude Code:通过 Anthropic 兼容端点 + 环境变量包装脚本,直接把claude命令指向本地 ds4-server。作者特别提醒,Claude Code 的初始 prompt 往往有 25k Token,务必开启磁盘 KV 缓存。
  • Pi:在models.json中添加 ds4 provider 配置,支持 thinking 等级映射。
  • opencode:通过 OpenAI 兼容端点接入,配置 context limit 和 output limit。

六、一个坦诚的声明

antirez 在 README 中放了一段少见的坦白:「这个软件是在 GPT 5.5 的强力辅助下开发的,人类负责主导思路、测试和调试。我们公开说明这一点,因为它塑造了项目的构建方式。如果你对 AI 生成的代码不满意,这款软件不适合你。」

同时他也不忘致敬 llama.cpp 和 GGML:「这个项目没有链接 GGML,但它因 llama.cpp 开辟的道路而存在。」ds4.c 在 MIT 协议下保留了 GGML 作者的版权声明。

antirez/ds4 仓库地址: https://github.com/antirez/ds4
http://www.jsqmd.com/news/793262/

相关文章:

  • DSP架构设计与低功耗优化关键技术解析
  • axios 文件传输实战:从基础上传到Excel流式下载
  • 【2026年版|建议收藏】大模型是如何思考的?揭秘LLM推理完整过程(小白程序员入门必看)
  • 4.ROS基础编程(2.基本数据结构或API分析)
  • STM32F407用CubeMX配置I2C驱动MPU6050,避开PB6/PB7引脚重映射的坑
  • 软考-软件工程(1-软件工程基础与开发方法)
  • 企业级私有Helm Chart仓库构建:从规范到自动化发布全流程实战
  • 从蓝牙耳机到智能家居:手把手教你用HFSS仿真2.45GHz矩形微带天线(附Rogers板材参数)
  • 3步永久保存微信聊天记录:本地化工具让数据真正属于你
  • 物联网安全架构设计:挑战、技术与实践
  • 基于LLM的智能体框架构建:从ReAct模式到实战数据分析助手
  • C# OnnxRuntime 实现车牌检测识别
  • 从氛围编码到规范驱动开发:AI编程时代的确定性产出实践
  • ZLAR-LT:轻量级AI本地化部署工具集的设计与实战指南
  • AI技能安全框架:基于最小权限原则的动态权限控制与沙箱化实践
  • 智能代理框架ClawPowers-Agent:从动态任务规划到自动化实践
  • 对接AI大模型之nginx代理配置SSE接口
  • 一切源于量子,还是意识?
  • 【智能优化】蝴蝶优化算法(BOA)原理与Python实现
  • AI工具搭建自动化视频生成API密钥管理
  • 技能驱动智能体框架:构建可复用、可编排的自动化应用
  • AI工具搭建自动化视频生成环境变量
  • IDEA破解(2020-2025)
  • LangChain实战:基于Streamlit构建RAG与智能问答AI应用
  • FPGA中AXI-FIFO主机接口的自定义实现与versal读写工程分析
  • Kubernetes安全加固实战
  • DecK工具介绍(Declarative Configuration for Kong网关的声明式配置工具,可同步配置,热更新运行中的网关)类似Terraform、导出Kong配置、导出配置
  • AI工具搭建自动化视频生成密钥保险库
  • windows 电脑上禁止一个开机启动程序
  • GEE筛选行政区的两种野路子:手绘个圈圈或者随便点个点,就能搞定研究区边界