Deepseek融资5000亿后首推DSpark框架,高并发下大模型响应速度显著提升!
【导语:近日,Deepseek团队在GitHub上线论文,提出DSpark框架解决大模型高并发下响应速度问题。该框架由北大和Deepseek联合出品,开源代码和权重,测试效果显著,虽有局限但传递出竞争新信号。】
Deepseek团队发布的论文聚焦大模型在高并发下保持响应速度这一真实生产问题。提出的DSpark框架由北京大学和DeepSeek联合出品,训练代码和模型权重全在GitHub的DeepSpec仓库。其论文《DSpark: Confidence-Scheduled Speculative Decoding with Semi - Autoregressive Generation》于6月27日发布。
推测解码并非新概念,但现有实现存在明显缺陷,一是草稿模型生成到后面token存活率下降,二是验证环节算力分配一刀切。DSpark给出针对性解法,半自回归生成让并行主干网络输出候选token基础特征,轻量顺序模块逐token补充依赖关系,2层结构比5层传统并行模型候选序列有效生成长度还长。
置信度调度验证则根据实时算力负载和前缀存活概率,动态决定每个请求验证的序列长度,优先验证高质量候选,截断大概率被拒的token。
在离线基准测试中,DSpark全面领先Eagle3和DFlash。以Qwen3 - 4B为例,单轮有效生成长度比Eagle3高出30.9%,比DFlash高出16.3%。线上A/B测试更具说服力,V4 - Flash在80 token/s的SLA条件下吞吐量提升51%,SLA拉紧到120 token/s时吞吐量提升661%;V4 - Pro在35 token/s下提升52%,50 token/s下提升406%。
同时,单用户生成速度改善60%到85%,在API产品里意味着等待时间几乎减半。
论文也指出DSpark的局限,在复杂低适配查询场景下,完整候选块生成有固定算力开销且无法回收。不过,DeepSeek刚完成首轮融资,投后估值5000亿,融资后首周放出合作论文和开源代码,传递出想将模型推理效率赛道从产品竞争变为基础设施竞争的信号。
编辑观点:DSpark框架为大模型高并发响应问题提供有效解决方案,开源策略有望推动行业发展,但局限也需后续优化。
