当前位置: 首页 > news >正文

CANN/DeepSeek-V4配置指南

YAML Parameter Description

【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer

The configuration instructions in the YAML file can be found below.

Basic Config model_name: "deepseek_v4" # Model name. String type model_path: "/data/models/deepseek_v4_int8_w8a8" # Weights path. String type exe_mode: "npugraph_ex" # Execution mode. Only support ["eager", "npugraph_ex"] world_size: 128 # Global rank num. Int type Model Config pa_block_size: 128 # PA Block Size value. Support [128] with_ckpt: True # Whether load ckpt. Support [False, True] enable_multi_streams: True # Whether enable multistream to improve performance. Support [False, True] enable_profiler: True # Whether enable profiling. Support [False, True] enable_cache_compile: False # Whether enable cache compile for better successive performance. Support [False, True] prefill_mini_batch_size: 0 # Mini_batch_size for prefill stage. Support [0, 1, 2, 3] perfect_eplb: False # If enabled, will force uniform selection of MoE experts. Support [False, True] enable_online_split_weight: True # Whether enable online-split weight. Support [False, True] next_n: 1 # Steps using multi-token prediction. Support [0, 1, 2, 3] platform_version: "A3" # inference platform. Support ["A3", "950"] enable_pypto: False # Whether enable pypto operators. Support ["True", "False"] Data Config dataset: "default" # Support ["default" "InfiniteBench" "LongBench"] input_max_len: 8192 # Max input prompt length max_new_tokens: 256 # Max inferred new tokens batch_size: 128 # Global batch size temperature: 1.0 # Float that controls the randomness of the sampling. Lower values make the model more deterministic, # while higher values make the model more random. Zero means greedy sampling. Parallel Config cp_size: 1 # Prefill CP Number. Only support [1, world_size] attn_tp_size: 1 # Attention TP Number. Only support [1] oproj_tp_size: 1 # Oproj TP Number. Only support [1, 4, 8] moe_tp_size: 1 # MoE TP Number. Only support [1] embed_tp_size: 16 # Embed TP Number. Only support [1, 4, 8 16] lmhead_tp_size: 16 # LMHead TP Number. Only support [1, 4, 8 16]

【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/783415/

相关文章:

  • WatchGuard Agent多漏洞深度解析:从本地提权到SYSTEM,安全代理为何成为内网最大后门?
  • 2026年半导体超高纯与石化防爆压力变送器推荐:五家优选对比 - 科技焦点
  • 【EI会议推荐】2026 人工智能、信息物理系统和智能计算国际学术会议(ICAICI 2026) - 艾思科蓝AiScholar
  • CANN/SiP批量矩阵求逆
  • AI辅助手写试卷评分的实战:OCR与LLM技术方案对比与工程化指南
  • 基于注意力机制与多模态融合的计算机视觉辅助自闭症行为分析系统
  • CodeCortex:为AI编码助手构建项目知识图谱,提升开发效率与代码安全
  • CANN社区基础设施SIG
  • 2026 北京财税机构指南注册公司代办机构高新企业认证口碑推荐 - 品牌优企推荐
  • 从零实现扩散模型:数学原理与PyTorch实战图像生成
  • CANN/ops-nn PReLU反向传播
  • 2026江苏 上海环氧地坪源头厂家怎么选?哪家好 推荐 - 奔跑123
  • 用友财报深度解读:2025亏损13亿,即将触底反弹?
  • 基于图神经网络与可视分析的慢性肾病临床决策支持系统构建
  • CANN/pyasc昇腾SoftMax算子API文档
  • 工程教育中基于角色的AI能力框架:从认知到协同的整合路径
  • 多模态大模型赋能港口,从视频孪生迈向空间原生智能
  • 2026年半导体超纯水夹钳流量传感器推荐:五家优选深度对比 - 科技焦点
  • 【图像处理】基于数学形态学的数字视网膜图像血管提取 (DRIVE) 数据集分割方法附matlab代码
  • 多智能体协作框架设计:从需求到交付的自动化产品开发实践
  • 2026年亦缇玻尿酸综合评测:品牌现状与市场表现 - 江湖评测
  • CANN/pto-isa通信测试问题诊断手册
  • AI赋能敏捷开发:从需求到部署的智能化实践与效率革命
  • cann/runtime初始化指南
  • 包头就近入学政策解读:昆区城区小学教学水平究竟如何? - 品牌推荐大师
  • AI智能增长如何影响其自我设计能力?比例论与收益递减论之争
  • 构建企业级MLOps平台:从数据湖到实验管理的全流程实践
  • AI赋能非洲农业:技术落地挑战与可持续路径实践
  • 集成学习在濒危语言文本分类中的实践:小样本场景下的NLP解决方案
  • pH计(酸度计)选型参考:2026年5月国内外笔式pH 计,台式pH 计,实验室pH 计知名品牌与正规生产厂家汇总 - 品牌推荐大师1