当前位置: 首页 > news >正文

CANN/cann-recipes-infer Kimi-K2-Thinking配置指南

YAML Parameter Description

【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer

Basic Config model_name: "kimi_k2_thinking" # string type model_path: "/data/models/Kimi-K2-Thinking/" # string type exe_mode: "ge_graph" # string type. Only support ["ge_graph", "eager"] world_size: 128 # int type Model Config pa_block_size: 128 # PA Block Size value. support [128, 256] enable_weight_nz: True # whether use nz-weight format for better performance. support [False, True] with_ckpt: True # whether load ckpt. support [False, True] enable_multi_streams: True # whether enable multistream for better performance. support [False, True] enable_profiler: True # whether enable profiling. support [False, True] enable_cache_compile: False # whether enable cache compile for better performance. support [False, True] prefill_mini_batch_size: 0 # mini_batch_size for prefill stage. perfect_eplb: False # whether enable, test uniform scenario of MoE experts support [False, True] enable_auto_split_weight: True # whether enable auto-split weight. support [False, True] next_n: 0 # steps using multi-token prediction. support [0, 1, 2, 3] Data Config dataset: "default" # support ["default" "InfiniteBench" "LongBench"] input_max_len: 8192 # the input max length max_new_tokens: 100 # max new tokens batch_size: 128 # Global batch size Parallel Config cp_size: 128 # Context Parallel Number. if cp_size > 0, cp_size should equal to world_size. Only active at prefill stage attn_tp_size: 1 # Attention TP Number oproj_tp_size: 8 # Oproj TP Number. Only support when attn_tp_size == 1 dense_tp_size: 1 # Dense MLP TP Number moe_tp_size: 1 # MoE TP Number embed_tp_size: 16 # Embed TP Number lmhead_tp_size: 16 # LMHead TP Number

【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/785676/

相关文章:

  • JAVA TREE
  • cann/runtime 多设备编程
  • 卷积改进与轻量化:2026 生产级轻量:将 MobileOne 重新参数化块引入 YOLO 主干,iPhone 上实时运行
  • Kubernetes多集群管理与联邦:构建跨地域高可用架构
  • 异常类
  • 2026年4月技术好的升降窗品牌推荐,断桥窗沙一体内开窗/铝合金阳光房/系统推拉门/阳光房,升降窗厂家哪个好 - 品牌推荐师
  • 基于OpenAI API与Slack平台构建智能对话机器人的实践指南
  • Avast 阻止引用程序访问网络
  • 生产级AI系统不确定性管理:从量化到决策的工程实践
  • CANN竞赛仓Add算子测试报告
  • 在Windows 11上无缝运行Android应用:Windows Subsystem for Android完整指南
  • 2026年好用的免费在线去水印工具怎么选?免费一键去水印网站最新推荐 - 科技热点发布
  • 一键部署AI助手沙箱:OpenClaw计算机容器在ModelScope与HuggingFace的实战指南
  • 基于NGSI-LD的物联网数据质量评估与增强实践
  • EDA-设计规模爆炸
  • LeetCode 3629.通过质数传送到达终点的最少跳跃次数:埃式筛+BFS
  • 有没有哪家包间又带独立厕所环境又好
  • 文献计量分析揭示AI在金融与创业交叉领域的研究热点与趋势
  • 我的编程启程:从零基础出发,奔赴心之所向
  • 在NPU环境上适配HunyuanImage-3.0模型的推理
  • 3.MySQL数据表操作全解析,一篇吃透!
  • 2026年一键去水印工具怎么选?在线去水印操作教程及推荐排行 - 科技热点发布
  • AI模型公平性:从统计定义到工程实践的全面解析
  • 别追了,那个终点线会自己往后跑
  • 从围棋AI到决策教学:AI如何成为人类复杂决策的超级陪练
  • 魔兽争霸3终极兼容性解决方案:WarcraftHelper完整指南
  • AI公平性感知:个体特征如何影响用户对算法决策的公平判断
  • 5分钟掌握DeepSeek集成配置:从新手到专家的完整实战指南
  • 3.快乐数专题学习笔记——双指针法在LeetCode 202题中的应用
  • SQL示例:获得积分最多的人,求和操作与去重的关系