当前位置: 首页 > news >正文

model_optimizer支持用cuteDSL实现自定义fmha算子了

背景

期望在model_optimizer中使用cuteDSL来优化pi0.5 fmha性能,但是pi05 llm fmha的dim=256,tensorrt-edge-llm还不支持,只好自己实现了
下面是详细的实现步骤

1. AOT 编译(需 SM100/SM110 GPU + cutlass-dsl 4.4.1)

pip install -r kernelSrc/requirements-cutedsl.txt

python kernelSrc/build_cutedsl.py--kernelsfmha--gpu_archsm_110-j4--output_dircpp/kernels/cuteDSLArtifact

http://www.jsqmd.com/news/894720/

相关文章:

  • 从SEO到AEO:掌握答案引擎优化的核心策略与实践指南
  • 03-替换DeepSeek模型和VSCode中的使用
  • 基于Claude Code与GitHub Actions构建AI驱动的自动化开发流水线
  • 从通用到专属:基于RAG与微调构建领域AI智能体的三层架构与实践
  • 2026年比较好的婚礼家具租赁/发布会家具租赁/宴会家具租赁定制加工厂家推荐 - 品牌宣传支持者
  • Worker模型与并发编程的本质区别及架构选型指南
  • Serverless AI外呼实战:无需运维,5步构建智能营销自动化
  • matlab代做合规科普:拒绝学术作弊,解锁专业技术辅助新方式
  • Linux服务器功耗异常排查?手把手教你用turbostat揪出CPU的‘电老虎’
  • 本地大模型实践:Mac Mini M4部署多模态事件提取系统
  • C51编译器内联函数机制与优化实践
  • 抛弃传统的 RNN!为什么时间卷积网络(TCN)才是时序数据预测的真正利器?
  • 别再傻傻分不清!嵌入式调试接口JTAG和SWD的保姆级接线指南(附J-Link连接图)
  • 基于大语言模型的自然语言转数据库Schema系统设计与实现
  • AI游戏开发制作平台深度评测:12款工具如何选,独立开发者必看避坑指南
  • 大一C语言程序设计期末复习指南
  • C51开发中LROL与LROR函数的非内联实现解析
  • HAMR模型:层次化聚合网络在多轮对话响应选择中的原理与实践
  • 氯酚类化合物电氧化过程PSO-BP-ANN预测模型【附算法】
  • AI结对编程实战:从零构建现代化个人作品集网站
  • Simulcast多流自适应技术详解
  • ARM编译器IPv6许可支持与配置指南
  • 2026年靠谱的无锡不锈钢低压水泵/水泵批量采购厂家推荐 - 行业平台推荐
  • 桌面API客户端集成AI面板:架构设计与开发实践
  • 2026年知名的贵州室外耐晒磁漆/贵州地坪漆品牌厂家推荐 - 行业平台推荐
  • 手把手教你用VNC Viewer远程显示树莓派桌面(附免费软件和SSH+VNC完整配置流程)
  • 告别数据手册:手把手教你用STM32的SPI驱动GAD7980 ADC(附完整代码)
  • 构建AI Agent网状通信运行时:从原理到实践
  • 别再傻傻用pyc了!用easycython把Python代码编译成pyd,保护源码更彻底(Windows/Linux保姆级教程)
  • 在ZYNQMP上点亮800x480 LCD屏:从framebuffer到DRM框架的完整驱动移植实战