当前位置: 首页 > news >正文

mlir 编译器学习笔记之四 -- 调度

调度:表调度 模调度 整数线性规划(NP,适合热点) 全局/路径调度(跨分支投机)

a) 调度的时候资源 并行度是关键考虑,需要先分析读、写、定义的依赖,分析指令readylist

b) 传统的readlist发射可以考虑关键逻辑优先,但实际还要考虑寄存器、内存,所以Priority(insn) = f(关键逻辑优先级,-寄存器压力增量)

c) 对应单个BB, 正向或者反向分析是一样的结果。当跨BB时才存在差异(正向并行,反向投机)

d) 可以通过任务依赖图查看依赖分析准确性和调度甘特图查看调度结果

1、指令的活跃区间 LiveRange [startTime, endTime]

startTime: 节点开始执行的时间(指令被发射到功能单元)
endTime: 节点结果就绪的时间(指令执行完成,结果可用)

前驱指令P: R1 = R2 + R3 // LiveRange: [10, 12]
当前指令C: R4 = R1 * 2 // 什么时候可以开始?==> R1 就绪,即endTime

2、普通调度 (严格顺序)& 硬件循环(允许重叠)的原因

T1 = max(preStart + hardware_switch_overhead,preEnd + loop_iteration_period - latency)

普通调度OOO:可以提前发射,但会在流水线中等待

硬件循环:可以更早开始执行,因为有数据转发 (专有硬件,不竞争通用资源)

3、资源占用:级联模式时需要多个功能单元

4、“operand #0 does not dominate this use”。这个错误通常发生在SSA(静态单赋值)形式中,当某个值在定义之前被使用,或者控制流导致某个值在某个使用点可能没有被定义

5、mlir中调度控制流scf算子(isa<RegionBranchOpInterface>(op))并不是BB的边界

该函数在遍历基本块的操作时,遇到scf::ForOp(或scf::IfOp)时,会:

  • 将之前积累的连续普通操作区间保存;

  • 递归地进入ForOp的内部区域,收集区域内部的操作范围;

  • 然后继续从ForOp的下一个操作开始积累新的区间。

因此,ForOp本身作为分隔点,它既不被包含在前一个区间,也不被包含在后一个区间,它自身也不被当作一个区间。这样划分后,每个区间都是不含任何区域分支操作的一段连续操作

http://www.jsqmd.com/news/652484/

相关文章:

  • 2026最新!零基础学化妆择校指南,小白必看不踩坑 - 品牌测评鉴赏家
  • 2025届必备的十大AI辅助论文网站推荐榜单
  • 【生成式AI版权合规生死线】:从模型微调到商用输出,12个关键节点的版权审计清单(含ChatGPT/Claude/MidJourney实测标注)
  • 遵义美容培训机构推荐|美妆博主亲测!零基础小白避坑指南,新手也能轻松入行 - 品牌测评鉴赏家
  • 2025届学术党必备的五大AI辅助论文工具实测分析
  • 实战指南:如何利用TSNE实现高维数据的可视化与聚类分析
  • 昆明化妆培训学校推荐 零基础小白入门参考 - 品牌测评鉴赏家
  • 终极电脑散热管理指南:免费Windows风扇控制软件FanControl完全教程
  • XUnity自动翻译ాలు:5分钟解锁全球游戏,从此告别语言障碍!
  • 创建型模式-工厂方法
  • 如何在TensorFlow生态中集成BERTopic:打造强大的主题模型应用
  • FLUX.1文生图保姆级教程:WSL2环境快速部署与风格选择
  • 揭秘!云南化妆培训学校哪家才是真“王者” - 品牌测评鉴赏家
  • 2026年昆明靠谱高考美术培训机构推荐 - 云南美术头条
  • 【生成式AI分布式事务处理黄金法则】:20年架构师亲授3大不可绕过的容错设计模式
  • 掌握大模型技能!运维工程师薪资飙升53%,从“救火队员”变身“AI架构师”的跃迁秘籍!
  • windows风险排查
  • 终极指南:如何在移动设备上快速部署BERTopic主题模型
  • Jimeng LoRA部署案例:国产昇腾910B平台LoRA热切换适配进展实录
  • 2026年3-8岁少儿美育启蒙机构什么品牌靠谱 - 云南美术头条
  • PyTorch模型权重如何可视化_利用Matplotlib提取卷积核权重绘图
  • 实测参考|COS化妆培训学校选择指南(新手适配) - 品牌测评鉴赏家
  • 番茄小说下载器终极指南:创新技术实现离线阅读自由
  • BERTopic模型部署终极指南:构建生产级主题分析API服务
  • PP-DocLayoutV3高算力适配:支持TensorRT加速,A100上推理速度达38 FPS(1080p)
  • 贵州化妆培训学校哪家好?2026实测避坑+靠谱清单,小白直接抄作业 - 品牌测评鉴赏家
  • 如何从零打造一个高性价比的DIY蓝牙音箱?
  • 2026年4月昆明艺考机构排名前十 - 云南美术头条
  • 别再只复制代码了!深入理解LAMMPS中BKS势函数的物理内涵与参数调试技巧
  • 避开功耗估算的坑:详解XPE中Toggle Rate设置的门道(附常见设计场景参考值)