当前位置: 首页 > news >正文

模型部署需要考虑的性能指标和模型部署的步骤

文章目录

  • 模型性能相关
    • 性能指标
    • roofline model
    • 注意点
  • 模型部署相关
    • 量化
    • 量化里重要的细节
      • 量化映射
      • 粒度
      • 校准
      • PTQ
      • QAT

模型性能相关

性能指标

可以分为Memory bandwidth和compute bandwidth

模型里面优化目标是让计算峰值靠近compute bandwidth,让吞吐量靠近Memory bandwidth

此外模型还有:
计算量
参数量
访存量

roofline model

这里提出了一种性能优化的模型。
该模型提出了一个评价模型性能的指标,计算密度

可以用带宽和峰值参数算出计算密度,找到能够性能优化的方面:

注意点

  1. 硬件指标不能完全衡量模型性能
  2. rrt对模型的优化有限

    3.对cuda core和tensor core的使用

    4.不能忽略前处理和后处理的overhead(额外开销)
    5.使用性能分析工具查看benchmark和profiling,找到优化的方向

模型部署相关

量化

通过减少模型的计算精度从而减少模型整体计算量的一种方法。一般针对激活值和权重进行量化,所以一般会说对cnv和linear这些计算密集算子进行量化。


由于模型越来越复杂,希望减少模型的计算量和压缩模型,同时希望在量化后的模型精度损失尽量少。

量化里重要的细节

量化映射


但是对于不同的数据分布,同一种tatio和distance对原数据的损失不同,所以要根据原数据的分布合理的设计ratio和distance

两种量化方法,对称量化和非对称量化:

粒度

校准

PTQ

QAT

http://www.jsqmd.com/news/512015/

相关文章:

  • 轻松制作燃料型原油蒸馏工艺流程图超便捷
  • 数据库课程设计实战:构建一个基于Youtu-Parsing的学术文献管理系统
  • 小天才海外版 imoo 发布二合一硬件,具备实时翻译功能;Streamo:让大模型变成实时流式交互助手丨日报
  • 上银导轨生产厂家哪家好?2026年评测结果出炉,市面上技术好的上银导轨哪家好甄选实力品牌 - 品牌推荐师
  • Mirage Flow与STM32CubeMX集成开发:自动化代码生成与模型调用
  • LiveGBS流媒体平台GB/T28181支持国标2022-操作日志页面如何筛选上级平台的调用记录直播观看录像回看等操作信息
  • 双向链表:从结构到增删改查
  • Vue3项目里用monaco-editor做个在线代码编辑器(带复制重置功能)
  • TIM+PWM输出+输入捕获测 频率+占空比(HAL库)
  • SEO_掌握这几个SEO技巧,让你的流量快速增长
  • Python信贷冷启动信用风险评估:WOE编码、IV筛选、代价敏感学习与逻辑回归稀疏样本建模 | 附代码数据
  • 别再手动复制了!用Vxe-Table的exportData方法,5分钟搞定Vue项目表格数据导出(含PDF/XLSX避坑指南)
  • 9.9元包月,告别Token焦虑,零配置,7×24 在线,火山引擎 ArkClaw “云端OpenClaw”龙虾私人助理,支持ClawHub技能插件
  • 【Rust面试问题】所有权机制
  • 黑丝空姐-造相Z-Turbo实战体验:输入文字秒出图片,效果惊艳
  • 解决PyTorch 2.6兼容性问题:YOLOv8部署避坑指南
  • ISO 9001认证到底有啥用?
  • Pixel Dimension Fissioner效果展示:技术博客标题的SEO友好型+传播力双强化裂变
  • 大模型提示词工程实战:从入门到高效应用
  • FastJson JSONPath 路径取值用法与场景总结
  • SEO_从零开始,手把手教你制定SEO执行方案(199 )
  • 西门子伺服分拣机西门子S7-1200 PLC程序,,有自己录4平详细讲解项目程序,4平已保护 ...
  • 2026哈尔滨汽车维修性价比排名,哈尔滨连顺汽车维修钣金喷漆价格合理吗 - 工业品网
  • VideoAgentTrek Screen Filter 与物联网结合:智能终端屏幕状态监控系统
  • 2026年上海境易达出国靠谱吗,深入分析其移民服务实力 - myqiye
  • 使用 Dify 快速构建对话式工作流:从零打造会议室预约智能体
  • Dify Token用量失控?3步完成轻量级监控插件部署,含OpenTelemetry埋点配置与成本阈值告警模板
  • 搞TC397的AUTOSAR?来点真实力
  • 为什么我们的大脑是“推理机”而非“硬盘”:关于学习、记忆与智慧的认知科学深度解析.
  • 颠覆“全职带娃轻松”,核算时间精力,机会成本,颠覆偏见,输出家庭劳动价值量化表。