当前位置: 首页 > news >正文

DeepSeek服务器不再卡顿宕机!DSpark加速60%-80%,推理成本降40%还开源框架

DSpark让DeepSeek告别卡顿宕机

DeepSeek最让人诟病的地方就是服务器总崩,不过现在,它可能再也不会出现服务器卡顿和宕机的情况了。原因在于,梁文锋挂名发表了一篇论文《DSpark:基于置信度调度的推测解码与半自回归生成》。这是梁文锋从2024年发表《DeepSeek LLM》之后,挂名发表的第12篇论文,而且DSpark这篇论文还和他2010年发表的硕士毕业论文“撞车”了。

DSpark加速效果显著

DSpark相当于是给DeepSeek装上了加速器,对用户来说,体感就是快、稳、不崩。同样质量的回答,速度直接快了60%到80%,原来等10秒的回复现在五六秒就出来。最关键的是,高峰时段,DeepSeek也不会再一直“转圈”了。

DSpark的核心机制

大模型生成文字本质上是“猜字游戏”,每写一个字都要重新看和算前面所有写过的字,这叫“自回归生成”。DSpark论文中提到的核心机制——投机解码,是找一个跑得快但水平一般的模型当草稿,先凭感觉猜出后面好几个字,再拿给大模型验证。业内有两种投机解码方式,第一种“老实人”打法输出质量高但速度慢,第二种虽速度快但存在“后缀衰减”问题。DSpark的核心思路是半自回归生成,它结合了上述两种办法。先快速猜出后面的字,再回过头检查,然后给每个字打“靠谱分”。之后根据大模型在不同批大小下的处理速度,对每个请求的草稿按靠谱分从高到低排队,进行置信度调度验证。

解决高并发问题

之前很多加速方案单用户测起来快,但一上高并发就崩。现在的DeepSeek一到晚上高峰就卡、就崩,本质是高峰时段用户请求多,GPU批处理压力大,之前MTP - 1的投机解码方案会浪费大量算力在验证大概率猜错的token上,导致有效吞吐量被严重拉低。DSpark部署后,这个问题应该会得到缓解。实测数据显示,在严格的低延迟要求下,DSpark能保持6倍以上的吞吐量;在更常规的中等负载场景下,DSpark单GPU的总吞吐量从10000 token每秒提升到15100 token每秒,直接涨了51%。

成本降低且不牺牲质量

在AI行业,训练成本是一次性的,推理成本却是永续的。谁能把推理成本打下来,谁就能赚钱。同样的GPU数量,DSpark在不改变硬件的前提下,可让每个用户的生成速度快60%到85%。遇到热点事件、大量用户同时涌进来时,DSpark靠动态调度,负载一高,自动缩短验证长度,避免占用关键的批处理容量,能在不扩容的情况下扛住流量尖峰。从数学验证来讲,DSpark不会使回答质量下降,论文还在三个领域做了离线准确率测试,和原模型没有统计显著差异,线上部署后也没有收到回答质量下降的用户反馈。而且由于草稿模型本身体积非常小,只占总计算量的不到10%,在51%的实测提升面前,这点负载可以忽略不计。DeepSeek向来以便宜著称,推理成本打下来40%之后,它有了更大的降价空间,token价格可能会跟着降,甚至有可能进一步提高免费用户的额度。更关键的是,这次DeepSeek把整个DeepSpec训练框架开源了,可用来训练投机解码草稿模型,把整个行业的推理成本基准线又往下拉了一个台阶。

梁文锋坚持省钱初心

2010年,梁文锋在浙江大学读硕士,他的硕士论文题目叫《基于低成本PTZ摄像机的目标跟踪算法研究》,当时他用几百块钱的普通民用球机,通过自研算法优化,把便宜摄像头的跟踪精度做到接近贵价设备的水平。16年过去,他依然执着于用算法给硬件省钱。在DeepSeek完成融资后,外媒爆料称,DeepSeek成立近三年,完全由梁文锋创立的幻方量化用利润养活,并且期间多次拒绝外部投资。幻方量化2025年平均收益率高达56.55%,全年营收约86亿元,梁文锋个人持股85%,每年分红数十亿元,个人资产据估算在500亿至1000亿元之间。今年启动的首轮超500亿元融资中,梁文锋个人掏了200亿,占总融资额的40%,是最大单一出资方。外部投资者的钱不直接进DeepSeek主体,而是先注入由梁文锋担任普通合伙人的有限合伙企业,外部投资方成为有限合伙人,只有收益权和财务信息查阅权,没有任何投票权,全部股份锁定五年,禁止转让和退出。在DeepSeek,梁文锋同时扮演投资者、管理者和研究者,省下来的每一分成本,都直接装进他自己的口袋里。面对“多买100张GPU还是让团队做工程优化”的选择,梁文锋选后者,因为他清楚这张卡要跑多少token才能回本。三个角色叠在一个人身上,产生了一个AI行业里极其罕见的决策闭环,DSpark就是这条决策链的最新产物。

http://www.jsqmd.com/news/1088191/

相关文章:

  • 国土空间规划工作底图制作全流程解析:从数据获取到符号化呈现
  • 从理论到代码:GTSAM中IMU预积分因子构建与优化实战解析
  • 英雄联盟智能助手League Akari:从新手到高手的完整实战指南
  • 瑞萨RA8D2 CANFD寄存器配置实战:从原理到调试避坑指南
  • Codex 实战:项目里真正好用的做法
  • UVa 612 DNA Sorting
  • Go语言Goroutine最佳实践:从并发基础到高性能实战
  • E-Hentai下载器:免费批量下载画廊图片的完整解决方案
  • 高性能计算中NVLink与加速器互联技术解析
  • 多模态AI的本质是张量代数:从线性映射到图文检索
  • RA8D2 VIN模块硬件加速配置:色彩空间转换与图像缩放实战详解
  • B站会员购抢票终极指南:5步从零开始轻松抢到心仪票务
  • COMTool架构深度解析:如何构建跨平台调试工具的设计哲学
  • GPT-5.6受限发布,海外AI监管升级,国产大模型迎来破局机遇?
  • Renesas Smart Configurator实战:图形化配置RZ/G MPU引脚与DDR内存
  • 嵌入式开发硬件沙盒:RH850/U2A评估板电源、时钟与跳线配置实战
  • 枣庄高口碑黄金铂金回收白银回收实体老店排行 5 家靠谱门店电话地址全收录
  • ARMv8内存属性探秘:从Normal到Device的架构设计与实战考量
  • Java计算机毕设之基于 SpringBoot 的房源信息管理及租房系统的设计与实现 轻量化同城租房服务管理系统(完整前后端代码+说明文档+LW,调试定制等)
  • 人生是一个动态平衡的系统的庖丁解牛
  • Rsysstat错误处理与日志系统:保证监控稳定性的关键
  • 实时操作系统(RTOS)的核心认知基石
  • openEuler网络优化技术:Gazelle高性能网络框架使用详解
  • 云原生CI/CD:从代码提交到生产部署的“高速公路“,Tekton + ArgoCD:构建云原生DevOps流水线
  • 终极指南:3步解决GitHub下载慢的免费加速插件
  • Plain Craft Launcher 2:智能高效的Minecraft游戏管理解决方案
  • Allegro多逻辑器件Annotate报错解析:Package属性配置与位号重分配实战
  • ncmdumpGUI:3步解锁网易云音乐加密文件的终极方案
  • Web安全基石:深入理解XSS攻击原理、类型与纵深防御策略
  • Hermes官方桌面版发布了