当前位置: 首页 > news >正文

使用cutlass模板跑各种量化gemm的example

持续更新中…

dense gemm

1.mxfp8 × mxfp8 → BF16

https://github.com/haowen-han/cutlass/tree/mxfp8_sm100_hhw/hhw_mxfp8_gemm

2.nvfp4 × nvfp4 → BF16

https://github.com/haowen-han/cutlass/tree/mxfp8_sm100_hhw/hhw_nvfp4_gemm

3.MXFP8 × MXFP4 → BF16

https://github.com/haowen-han/cutlass/tree/fp8_fp4_sm100_hhw/hhw_mxfp4_mxfp8_gemm

http://www.jsqmd.com/news/774984/

相关文章:

  • YOLOv11-seg 改进系列 | 引入原创 RSCD 重参数共享卷积分割头,增强 Head 表达力并压低计算量
  • 2026十大AIToken聚合平台深度解读,多模型聚合调用技术升级分析
  • 第五篇:MySQL锁机制——从行锁到间隙锁
  • ML Visuals:解锁机器学习可视化表达力的100+专业资源
  • 【学术生存指南2026】:错过AISMM,你的NSFC申报、顶会投稿与跨学科合作将系统性降维
  • 【EAI(企业应用集成)工具】Asteria warp簡単紹介(アステリア ワープ)
  • 用Python 和 java 写 10 道题
  • MCP协议赋能:Qdrant向量数据库的标准化AI应用集成实践
  • 基于PHP+Swoole与RAG的AI应用私有化部署全栈实战
  • 特斯拉Model 3/Y CAN总线数据采集终极指南:5分钟掌握车辆系统监控
  • uni-app 全能日历组件,支持农历、酒店预订、打卡签到、价格日历多种场景
  • 5分钟快速上手!Calibre豆瓣插件终极安装指南,轻松获取中文图书元数据
  • AI编程助手集成Codex CLI:MCP协议实现智能代码分析与本地模型部署
  • AI原生OPC项目路演实录分享
  • 怎么配置中转站,稳定的爽用gpt 5.5,附cc switch + codex 配置教程
  • 第六篇:Redo Log与Binlog——崩溃恢复的底层保障
  • AutoJS Pro9.3最新文档详解与入门教程
  • Arm架构通用定时器原理与应用全解析
  • Flutter for OpenHarmony 学习路线实战:从环境搭建到跨端数据持久化全流程解析
  • MYSQL的视图
  • Termi AI:基于Electron的智能桌面开发伴侣,集成Vite预览与AI编程助手
  • 第七篇:慢查询分析与SQL优化实战
  • copilot学生认证按键无法点击
  • golang如何实现桌面应用热更新_golang桌面应用热更新实现攻略
  • MyBatis 高频八股文:从 Mapper 到缓存,一篇搞懂常见面试题
  • Python配置管理实战:从环境变量到类型安全,详解Tanuki单文件库设计
  • #81_闲谈语言的分类
  • linux kernel CONFIG_KCMP解析
  • YOLOv11室内地面塑料袋目标检测数据集-30张-Plastic-Bag-1
  • 微信福音:2345清理王微信专清功能介绍