当前位置: 首页 > news >正文

DeepSeek 开源 TileKernels:用 Python 写出逼近硬件极限的 GPU 内核

DeepSeek 开源了 TileKernels——完全用 Python(TileLang DSL)编写的高性能 GPU 内核库。Engram 和 mHC 模块的暴露,揭示了 DeepSeek V4 的架构野心。

一个反直觉的事实

写一个高性能 GPU 内核,你需要什么?

传统答案是:C++、CUDA、模板元编程、几百行甚至上千行的代码、数周的调试时间。

DeepSeek 的答案是:Python,70 行以内。

这不是玩笑。TileKernels 是 DeepSeek 最新开源的 GPU 内核库,所有内核都用 TileLang——一个 Python DSL(领域特定语言)编写。在 H800 上跑出了接近硬件极限的性能,部分内核已经用于 DeepSeek 内部的训练和推理。

更关键的是,这个库里藏着两个模块——EngrammHC——它们直接暴露了 DeepSeek V4 的架构设计。

为什么放弃 CUDA?

要理解 TileKernels 的意义,先要理解传统 GPU 内核开发的痛点。

写一个高性能的矩阵乘法(GEMM)内核,用纯 CUDA + C++ 模板,代码量通常在1000-3000 行。这些代码充满了:

  • 手动的 shared memory 分配和 bank conflict 处理
  • warp 级
http://www.jsqmd.com/news/697835/

相关文章:

  • SES工程移植避坑指南:为什么你的启动文件总报错?详解Startup.s与Vector.s的正确替换姿势
  • 嵌入式C语言面试官最爱问的6个基础概念,你真的都搞懂了吗?
  • Rocky Linux 9 与Centos区别,以及软件安装dnf命令
  • 2026宜昌现代简约装修选购指南,专业公司口碑排名出炉 - myqiye
  • 开源推荐:API Relay — 大模型API中转站,多账号自动轮换+赛博朋克管理面板
  • Arduino IDE 2.0+ 库文件搬家指南:告别C盘爆满,轻松迁移Arduino15到D盘
  • Windows Cleaner终极指南:三分钟解决C盘爆红,电脑焕然一新!
  • 避坑指南:树莓派配置LIRC红外遥控最容易踩的5个坑(内核版本、设备节点、配置文件格式)
  • 构建企业内网精准时钟:AD域控NTP服务端与客户端配置实战
  • Claude Code 使用教程
  • 盘点2026年山东、湖北实力强的石英管源头厂家哪家性价比高 - 工业品牌热点
  • GLM-5.1 上线火山 Coding Plan:Opus 级编码能力,不限购真香
  • 如何让无导航PDF秒变智能文档?pdfdir一键添加专业级书签
  • CAD VBA实战:利用GetBoundingBox与GetVariable实现智能图元定位与批量标注
  • 告别卡顿!保姆级教程:在 Windows Server 2019/2022 上为 Docker 正确配置 WSL 2 后端
  • DC-DC反馈电阻取值:效率、精度与稳定性的权衡艺术
  • Element UI el-select全选功能翻车实录:我踩过的3个坑和性能优化方案
  • TileLang + TileKernels:DeepSeek 的 GPU 内核开发新范式,70 行 Python 替代 3000 行 CUDA
  • YOLO演进史 | 正负样本分配策略的“进化论”
  • 从代码到电线:手把手教你用Python和树莓派玩转RS485多设备通信(模拟I2C主从)
  • 想了解黑龙江滨沃管业克拉管,它的性价比高不高? - mypinpai
  • 终极1Fichier下载管理指南:5分钟快速上手的高效下载解决方案
  • 别再只用基础门了!用Verilog UDP为你的FPGA/ASIC验证提速(避坑指南)
  • 在F1C100s上跑GBA游戏:手把手教你用Buildroot配置SDL和编译gpsp模拟器
  • OpenCore Legacy Patcher:老Mac升级新系统的完整方案深度解析
  • 周深2026「深深的」演唱会抢票攻略|告别秒空,新手也能轻松抢到票
  • ARM SVE与SME架构:原理、启用控制与性能优化
  • LFM2.5-VL-1.6B部署教程:配合Redis缓存高频问答提升响应效率
  • XCOM 2模组管理终极解决方案:如何用AML启动器告别模组冲突和加载混乱
  • 2026年亲测:油烟机启动难按开关没反应的问题剖析 - 小何家电维修