当前位置: 首页 > news >正文

CODA:将Transformer块重写为GEMM附加程序,为训练效率提升提供可行途径

【arXiv相关信息】

我们衷心感谢西蒙斯基金会、会员机构以及所有贡献者的支持。可了解arXiv成为独立非营利组织的相关情况。

【搜索与快速链接】

搜索可在所有字段,包括标题、作者等进行。还有快速链接,如登录、帮助页面、关于等内容。

【论文信息】

在计算机科学的机器学习领域,arXiv:2605.19269论文《CODA:将Transformer块重写为GEMM附加程序》,于2026年5月19日提交,最后于2026年5月20日修订。作者包括郭涵、杰克·张、阿君·梅农、德里斯·盖苏斯、维杰·萨卡尔、尹·金、特里·道。可查看该论文的PDF版本、HTML(实验版)。

【论文摘要】

Transformer训练系统围绕密集线性代数构建,但端到端训练时间中有相当一部分花在了周边的内存受限算子上。归一化等相关计算使数据移动成为训练栈的重要瓶颈。我们引入了CODA,一种GPU内核抽象,将这些计算表示为GEMM加附加程序。它基于可对Transformer算子代数重新参数化的观察,固定了GEMM主循环,并提供可组合附加原语。这种抽象保留了专家编写的GEMM的性能结构,又能表达标准Transformer块前向和反向传播中几乎所有非注意力计算。在代表性Transformer工作负载中,人类和大语言模型编写的CODA内核都实现了高性能,表明GEMM加附加程序编程为结合框架级生产力和硬件级效率提供了可行途径。

【主题与引用格式】

主题为机器学习 (cs.LG) 。引用格式有[arXiv:2605.19269] [cs.LG] ,或此版本使用 [arXiv:2605.19269v2] [cs.LG] ,以及 。

【提交历史】

来自郭涵,[v1]于2026年5月19日 星期二 02:30:43 UTC(1121 KB)提交,[v2]于2026年5月20日 星期三 17:38:24 UTC(493 KB)提交。

【全文链接】

可查看该论文的PDF版本、HTML(实验版)、TeX源代码 ,还可查看许可。

【当前浏览上下文】

当前浏览上下文为cs.LG,可进行上一篇、下一篇浏览,还有最新论文、近期论文、2026年5月论文等浏览选项,也可切换浏览方式。

【参考文献与引用】

参考文献与引用包括NASA ADS、谷歌学术、语义学者等。

【文献工具】

文献工具包括文献与引用工具,如文献浏览器、关联论文、文献地图、scite.ai等;代码、数据和媒体相关工具,如alphaXiv、代码链接、DagsHub等;演示项目工具,如Replicate、Spaces等;推荐器和搜索工具,如影响力花图链接、CORE推荐器、IArxiv推荐器等。

【关于arXivLabs】

arXivLabs是一个框架,允许合作者直接在网站上开发和共享新的arXiv功能。与arXivLabs合作的个人和组织认可并接受开放、社区、卓越和用户数据隐私价值观。若有能为arXiv社区增值的项目想法,可了解更多关于arXivLabs的信息。还可了解本文作者认可情况,禁用MathJax等。同时提供关于、帮助、联系arXiv、订阅arXiv邮件等相关信息,以及版权、隐私政策、网络无障碍协助、arXiv运行状态等内容。

http://www.jsqmd.com/news/865642/

相关文章:

  • 实战指南:3种高效部署mosdns DNS转发器方案全解析
  • 2026年超自动化平台选型指南:全流程智能协同适配
  • 17 DINO 论文精读:为什么 ViT 的注意力图能自动关注目标?(Emerging Properties in Self-Supervised Vision Transformers)
  • ChocolateyGUI 高级用法:自定义源、批量操作与自动化管理终极指南
  • 从零开始跟随文档在十分钟内获得第一个Taotoken API响应
  • HEIF Utility终极指南:如何在Windows上轻松查看和转换苹果HEIC照片
  • 毕业设计:基于springboot夕阳红公寓管理系统的设计与实现(源码)
  • 3步搞定!macOS下高效制作Windows启动盘终极指南
  • 2026年新疆出游旅行社推荐:新疆康辉大自然国际旅行社有限责任公司,包团旅行社/纯玩小团旅行社精选指南 - 品牌推荐官
  • H5P交互式视频:构建沉浸式学习体验的技术架构解密
  • BuckyClient计数器功能:使用count方法轻松统计用户行为指标
  • TMSpeech:Windows本地实时语音转文字的隐私安全解决方案
  • Perplexity案例法检索失效的7种隐藏模式:从Query Embedding偏移到Case Schema漂移全拆解
  • 2026降AI工具怎么选?高通过率实用选购指南
  • 快速接线端子厂家哪家好?2026欧式接线端子/导轨接线端子/PLC接线端子/PT接线端子/UK接线端子厂家推荐:连的领衔 - 栗子测评
  • 为什么顶尖AI初创公司正在集体切换DeepSeek?——一份被低估的TCO(总拥有成本)分析报告
  • 中小企业建站平台首选是什么?不是最贵的,而是最适合经营节奏的 - 维双云小凡
  • Prosopite高级用法:本地异常抛出、暂停扫描和自定义日志配置
  • 泉盛UV-K5/K6开源固件:5大功能解锁百元对讲机专业级体验
  • 2026雅思小班课选课标准:全科线上小班课程推荐 - 品牌2025
  • 亚克力包装盒选购指南:定制要点与西安选型攻略 - 资讯速览
  • 创业团队如何借助Taotoken按需调用AI模型以控制研发成本
  • DownGit:3步高效下载GitHub任意文件或文件夹的专业工具
  • 基于SpringBoot的在线家具商城设计与实现
  • Qt5超级模块性能优化完全指南:10个实用技巧提升应用性能
  • 手机和电脑怎么换背景颜色?2026年实用操作指南 - AI测评专家
  • 深度伪造致宾夕法尼亚高中混乱,学校应对不力引关注
  • Betaflight 2026:开源飞控固件的完整入门指南
  • CANN/asc-devkit SIMT协作组函数
  • 西安办公室装修设计/酒店装修设计/餐饮装修设计:2026年陕西优质公司推荐 - 深度智识库