全网首份指令级拆解:华为昇腾950DT如何撬动DeepSeek 75%降价与字节锁单
一、一份拆解报告,搅动了整个AI算力江湖
6月12日,华尔街知名半导体研究机构SemiAnalysis发布了一份报告。这份报告不一般——他们拿到了华为昇腾950DT的样机,围绕DeepSeek V4的推理链路做了一次Trace级别的指令拆解。
结论可以用一句话总结:DeepSeek V4跑在昇腾950DT上,推理成本可以打掉75%。
75%是什么概念?如果把目前DeepSeek Pro的API调用价格砍到四分之一,它就不再只是"便宜好用"的选项,而是直接变成整个AI应用层的成本锚点。所有依赖模型调用的SaaS、Agent、Copilot类产品,成本结构会被彻底重写。
更值得注意的是,在这份拆解报告流传之前,字节跳动已经提前锁定了大批昇腾950DT订单。阿里的单子也在路上。这不是"观望",这是抢产能。
一家被制裁的中国公司造出的芯片,正在撬动全球AI推理的定价权。
二、从"能用"到"好用",昇腾走了多远
要理解950DT为什么重要,得先回到昇腾芯片的起点。
华为做AI芯片不是新闻。2018年的昇腾310、2019年的昇腾910,都是在制裁之前就规划好的产品线。但早期的昇腾有一个所有人都知道的痛点:硬件参数不差,软件生态太难啃。
CANN(华为的AI计算框架)和CUDA的差距,不是跑分能填平的。开发者要在昇腾上跑模型,光是算子适配就能把人折腾到怀疑人生。2023年《金融时报》的一篇报道直接点过:DeepSeek早期用昇腾训练时,“芯片稳定性差、互联速度慢、软件工具链不成熟”——三个问题,每一个都能让工程团队掉一层皮。
但从那时到现在,昇腾完成了几件关键的事:
第一,自研HBM。华为搞出了自己的高带宽内存HiBL 1.0和HiZQ 2.0。在美光、三星、SK海力士的HBM被出口管制卡脖子的背景下,这个突破的意义比芯片本身更大——它意味着华为在AI芯片最核心的"存算墙"问题上,有了一条自己的路。
第二,CANN Next兼容CUDA。新增了SIMT编程模型,开发者可以直接把CUDA代码迁过来跑。这不是"完全替代",但大大降低了迁移门槛。生态的飞轮,从这一环开始加速。
第三,灵衢(UnifiedBus)互联协议。单卡打不过就拼系统。灵衢支撑8192卡乃至15488卡的超节点互联,这是华为"用架构补制程"思路的集大成者。
到2026年4月DeepSeek V4发布时,V4已经原生跑在昇腾950PR上。徐直军在HC大会上的那句"算力过去是、未来也将继续是人工智能的关键,更是中国人工智能的关键",放到这个节点看,不再像是一句口号。
三、SemiAnalysis的Trace级拆解:950DT到底强在哪
回到SemiAnalysis那份报告。他们拆解的重点不在纸面参数,而在实际推理链路的执行效率。
3.1 两个版本,两种打法
昇腾950系列实际上有两颗芯片:950PR和950DT。它们的计算核心相同,但内存系统截然不同。
950PR搭载HiBL 1.0内存,128GB容量,1.6TB/s带宽。主要面向推理的Prefill(预填充)阶段和推荐系统业务。本质是"降本版"——用自研内存替代昂贵的HBM3e方案,在不牺牲太多性能的前提下,把硬件采购成本压到H20的四分之一。
950DT才是真正的性能怪兽。它搭载HiZQ 2.0内存系统,容量拉到144GB,带宽翻到4TB/s,互联带宽2TB/s。这个配置是专门为推理的Decode(逐token生成)阶段和模型训练场景设计的。
关键差异在于:Decode阶段是内存带宽敏感型任务。大模型每生成一个token,都要把整个模型权重从内存里过一遍。如果内存带宽跟不上,算力再强也是空转。950DT的4TB/s带宽,让它在这个瓶颈环节上可以和英伟达B200掰手腕。
3.2 协同设计:芯片和模型一起打磨
SemiAnalysis拆解中最重要的发现之一,是昇腾950DT和DeepSeek V4之间不是"先有模型,再适配芯片"的传统路径,而是协同设计。
这意味着DeepSeek在开发V4的过程中,华为的芯片团队就深度参与进来了。模型的推理路径、硬件执行方式、CANN软件栈的算子优化——这三层是在同一张桌子上一起打磨的。
具体来说体现在三个层面:
算子层:DeepSeek V4的MoE(混合专家)架构有1万亿参数,每次推理只激活约370亿。MoE模型的核心瓶颈是Expert Routing(专家路由)和All-to-All通信。SemiAnalysis发现,华为为V4专门定制了稀疏矩阵乘法和Expert Gather指令,把MoE路由延迟降低了40%以上。
内存层:V4推理时,全部专家权重待在HBM里,每次推理只把激活的专家加载到计算单元。950DT的144GB大容量HBM让所有专家权重能常驻内存,避免了昂贵的weight swapping操作。4TB/s的带宽则保证了专家切换的吞吐。
通信层:在多卡推理场景下,Tensor Parallelism的通信开销往往是性能杀手。灵衢2.0的2TB/s互联带宽配合华为定制的All-Reduce通信原语,让跨卡通信不再成为瓶颈。
3.3 75%降价是怎么算出来的
SemiAnalysis的测算逻辑大致如下:
单卡推理吞吐量:950DT在运行DeepSeek V4 Decode任务时,得益于4TB/s内存带宽和定制算子,单卡吞吐量达到H100的约85%-90%。
但卡的成本是H100的约25%。华为自研HBM和国内供应链的成本结构,让950DT的硬件单价远低于受管制的H100/H200。
折算到每百万token的推理成本:大约是当前DeepSeek Pro定价的25%。注意这是硬件侧的潜力,实际定价还涉及DeepSeek的商业策略。但即使打个折,降价50%以上几乎是板上钉钉的。
更重要的是,这个降价空间不是靠"赔本赚吆喝"撑起来的,而是硬件成本结构的变化。HBM3e/HBM4是英伟达B200中最贵的组件之一,而华为用自研HiZQ 2.0替代了这个成本黑洞。一旦950DT量产出货稳定,这个成本优势会持续放大。
四、字节锁单背后:推理定价权正在转移
拆解报告引发的市场反应,比报告本身更有意思。
4.1 从"试试看"到"抢产能"
2026年4月DeepSeek V4发布时,阿里、字节、腾讯已经下了数十万颗昇腾950PR的订单。那是V4刚出来、大家还在验证的阶段。
到6月SemiAnalysis报告出来后,情况完全变了。
据多个信源交叉验证,字节跳动已经追加了950DT的锁单,总量远超此前950PR的订单。阿里的订单也在加速推进。腾讯虽然动作稍慢,但也没有缺席。
这背后的逻辑很清楚:谁先拿到足量的950DT,谁就能在推理服务市场拿到成本优势。降75%的推理成本,对于字节这样的"模型调用大户"——旗下豆包、扣子、飞书AI等产品对推理的消耗量以每天数十亿token计——可以直接转化为每年数十亿人民币的成本节约。
4.2 英伟达的"中国焦虑"
英伟达并非没有应对。H20是专门为中国市场定制的合规版GPU,性能被精确地卡在出口管制的红线之下。B200更是不可能直接卖给中国。
但昇腾950DT的出现,让"H20够用"的假设站不住脚了。
如果DeepSeek V4跑在950DT上的推理成本只有跑在H20上的三分之一甚至四分之一,那云计算厂商没有理由继续大比例采购H20。这不只是一个"国产替代"的故事,而是纯经济学的决策。
路透社4月份的报道已经提到,昇腾950系列芯片的订单逼近75万颗。这个数字放在2025年,是几乎不可想象的。
4.3 更深层的信号:推理定价权
过去两年,AI推理的定价权牢牢掌握在英伟达手里。虽然DeepSeek一直在压价,但它的成本底取决于它用什么芯片。
如果DeepSeek的成本底被英伟达的芯片定价锁死,那它的"价格屠夫"策略就只能打到某个程度。
昇腾950DT改变了这个前提。当DeepSeek的核心推理链路可以完全脱离CUDA生态、跑在自主可控且成本结构完全不同的硬件上时,推理定价权的天平开始倾斜。
这不是说英伟达要输了。英伟达在高端训练市场、全球生态、软件成熟度上的优势依然巨大。但在中国市场的推理场景里,昇腾+DeepSeek的组合正在建立一套平行体系。这套体系不需要在每一个维度上都赢,只需要在"性价比"这一个维度上形成压倒性优势,就足以改变格局。
五、影响与启发:国产AI算力的大考才刚刚开始
SemiAnalysis的拆解报告像一面镜子,照出了国产AI芯片的成绩和短板。
成绩:路线对了
华为选择的"系统级创新代替单芯片堆料"路线,在制裁背景下几乎是唯一可行的道路。灵衢互联、自研HBM、CANN Next、超节点架构——这套组合拳的逻辑是清晰的:既然单卡制程受限,就让千卡万卡像一台机器一样工作。
DeepSeek V4的成功适配,是对这条路线的阶段性验证。它证明了一件事:不需要台积电3nm,也能造出支撑顶级大模型推理的AI芯片方案。
挑战:生态和量产
但几个硬骨头还在前面:
量产爬坡。60万颗910C、目标是160万片的总产量——华为2026年的产能计划非常激进。中芯国际7nm的良率和产能能不能扛住?自研HBM的量产能不能跟上?这是比芯片设计更现实的挑战。
软件生态的护城河。CANN Next兼容CUDA是好事,但兼容不等于替代。真正要让开发者从CUDA迁移到CANN,需要的不只是API兼容,而是文档、工具链、社区、第三方库的全套体验。CUDA花了15年构建的护城河,不是一年两年能填平的。
训练的缺失。目前DeepSeek V4的训练仍部分依赖英伟达集群,昇腾主要扛起了推理。要实现"训练+推理全链路国产化",还有不少坑要踩。
启发:从一个芯片到一个时代
昇腾950DT的故事,本质上不是一个芯片的故事。它是中国AI产业在极端外部约束下,被迫走出的一条自主之路。
这条路不好走。2023年DeepSeek用昇腾训练时摔过的跟头,2024年华为工程师为精度对齐熬过的夜,都是这条路上的代价。
但现在看,这些代价正在转化成壁垒。当昇腾+DeepSeek的组合形成闭环,那些还在等待"制裁解除后继续用英伟达"的企业,可能会发现自己已经错失了窗口期。
对开发者来说,最实际的建议可能是:开始认真学CANN。不是因为"爱国",而是因为未来几年,你在中国做AI infra、做大模型部署、做推理优化,昇腾将是一个绕不开的选项。早学晚学都是学,早学有红利。
对于整个行业,SemiAnalysis的这份拆解报告传递了一个清晰的信号:AI芯片的地缘政治游戏规则,正在被改写。主角不再只有一个。
参考来源:SemiAnalysis Ascend 950DT Trace Analysis(2026.06.12)、TechWeb报道(2026.06.08)、EET-China DeepSeek V4适配昇腾报道(2026.04.09)、华为全联接大会2025徐直军演讲
