当前位置: 首页 > news >正文

摩尔线程 × 上海AI实验室|基于S5000和KernelSwift实现DeepSeek-V4核心算子Day-0适配

今日,DeepSeek-V4预览版正式发布并开源。摩尔线程携手上海 AI 实验室 DeepLink 团队,通过大模型驱动的智能算子迁移系统 KernelSwift,率先在旗舰级AI训推一体智算卡 MTT S5000 上完成了核心算子的Day-0适配。目前算子通过率已超80%,真正实现了模型发布与国产算力适配的同步落地。这一成果不仅为开发者提供了无缝部署体验,更彰显了 KernelSwift 与 MUSA 软件栈在生态协同中的强大支撑作用。

支撑多元国产芯片Day-0适配,KernelSwift极致提升开发效率

KernelSwift作为支持多元算力的智能算子迁移系统,可提供指定芯片的Triton算子定制优化服务。以高级抽象与自动算子生成,KernelSwift将适配周期从数月压缩至小时级,为多元国产AI芯片提供“开箱即用”的高性能算子支持,助力Day0适配计划的真正落地。在公开数据集 Kernelbench 上,KernelSwift 实现 SOTA 级别的表现,可自动生成的高性能算子覆盖语言大模型和科学大模型;并基于深度学习编译器(DLCompiler)实现编译器到算子生成全链路支撑,摆脱单一生态绑定。

国产算力底座标杆:MTT S5000硬核支撑前沿模型

摩尔线程旗舰级全功能AI训推一体智算卡MTT S5000专为大模型训练与推理设计,其核心亮点在于原生支持FP8精度,并配备硬件级FP8 Tensor Core加速单元。相比国内主流芯片普遍依赖的BF16/FP16,FP8可将数据位宽减半,使显存带宽压力降低50%、理论计算吞吐量翻倍,从而更高效地承载DeepSeek-V4等前沿模型所需的“FP4+FP8”混合精度策略,为模型部署与推理提供坚实的算力底座。

深度协同优化,释放极致性能

在DeepSeek-V4模型发布后,KernelSwift基于摩尔线程MTT S5000启动全自动流程生成核心算子,全程无需人工干预。得益于摩尔线程对Triton的全面支持以及MUSA软件生态的高兼容性与开放架构,KernelSwift得以快速完成与MTT S5000的对接验证。在此基础上,DeepSeek-V4模型共计21个核心算子均实现明显加速,算子通过率超过80%;自动生成的算子经少量人工修改后在MTT S5000上实现100%正确性。

算子筑基,共筑国产AI生态新范式

KernelSwift 与 MTT S5000 在 DeepSeek-V4 上的Day-0协同落地,充分展示了国产 AI 生态的高效协作,为国产算力生态从技术研发走向大规模应用积累了重要经验。摩尔线程 MUSA 软件栈与 KernelSwift 的深度融合,证明了国产全功能 GPU 能够即时响应最前沿的大模型需求,为构建自主可控、高效敏捷的 AI 基础设施树立了标杆。未来,摩尔线程将持续联合生态伙伴,推动更多前沿模型在国产算力平台高效部署,加速 AI 生态向“好用”和“领先”跨越。

KernelSwift 在线体验链接:

https://deeplink.org.cn/kernelswift

DeepSeek-v4算子代码仓:

https://github.com/DeepLink-org/DLBlas/tree/add-dsv4-kernels/dlblas/kernels/kernelswift_triton/level3

http://www.jsqmd.com/news/720279/

相关文章:

  • 猫抓资源嗅探扩展深度解析:网页媒体资源一键获取实战宝典
  • 别再傻傻分不清了!一文搞懂蓝牙BR/EDR、BLE和LE2M到底有啥区别(附应用场景选择指南)
  • 制造业大宗原材料成本管控:用AI与实时监控破解价格波动困局
  • 全国不锈钢伸缩缝企业质量实测排行:四大头部品牌解析 - 奔跑123
  • Ryujinx完全实战手册:在PC上打造你的专属Switch游戏空间
  • 2026 全自动咖啡机哪家比较好,哪家更适合我?高性价比机型推荐 - 品牌2026
  • 全国铜止水供应商质量实测排行:工程场景核心指标对比 - 奔跑123
  • 山东排烟天窗供应商
  • 当漏洞来了,你知道系统里用了什么吗?——SBOM 的真正价值
  • C#项目日志配置踩坑实录:从log4net基础配置到生产环境最佳实践
  • MDAnalysis终极指南:分子动力学模拟分析的免费Python利器
  • 如何永久使用IDM:开源激活脚本完全指南
  • recycleview列表多种样式,列表为空的设置,列表刷新
  • 2026工业监测新选择:听诊传感器多场景适用,哪个品牌效果好?看完这篇不踩坑 - 品牌策略主理人
  • BiliTools哔哩哔哩下载终极指南:三步搞定跨平台B站资源下载
  • Packet Tracer 中文语言包安装指南
  • 告别硬编码!若依框架Excel导入导出动态关联字典表,运维再也不用催我改代码了
  • 2026 全自动咖啡机选择哪家?热门品牌与机型推荐 - 品牌2026
  • 什么防晒霜肤感清爽不闷痘?清爽不闷痘不踩雷,5款高口碑防晒闭眼囤就对了 - 全网最美
  • doris数据库数据均衡迁移问题
  • 2026年测定粘结指数标准无烟煤企业推荐:基于综合评估 - 深度智识库
  • 告别时间漂移:手把手教你用C语言和Winsock实现一个简易NTP客户端(附完整源码)
  • 毕业设计精选【芳心科技】基于单片机的刷卡占座座椅
  • 兴源吸塑包装专业可靠,为行业发展添砖加瓦
  • SSDTTime黑苹果配置终极指南:5分钟搞定DSDT自动补丁
  • MATLAB小白也能搞定:用FFT快速模拟菲涅尔圆孔衍射(附完整代码和参数调优心得)
  • Java Web:DispatcherServlet
  • phy_simulators之nr_pbchsim之PBCH-DMRS
  • 提升文件管理效率的终极解决方案:QuickLook文件夹预览插件
  • 邦芒忠告:新人初入职场谨防“八件事”