当前位置: 首页 > news >正文

TensorRT-LLM部署Qwen3-14B

TensorRT-LLM部署

TensorRT-LLM 官方文档地址:https://nvidia.github.io/TensorRT-LLM/overview.html

下载相关的镜像

Nvidia官方镜像网址:https://catalog.ngc.nvidia.com/search?filters=resourceType%7CContainer%7Ccontainer&query=tensorrt-llm

#下载Nvidia tensorRT-LLM 镜像, docker pull nvcr.io/nvidia/tensorrt-llm/release:1.2.0rc4

注意:release版本镜像并没有将模型转换checkpoint的依赖环境,没有tensorrt-llm ,需要手动安装,或者找其他版本的镜像(本人测试了 devel 版本(nvcr.io/nvidia/tensorrt-llm/devel:1.2.0rc4)仍然没有,网络建议的build版本、engine版本没有找到,只能自己安装)

进入镜像,安装相关的的依赖:

pip install tensorrt-llm pip install transformers accelerate sentencepiece safetensors huggingface_hu #如果你是 Qwen3 系列,还必须安装: pip install tiktoken pip install einops #如果你是 LLaMA: pip install protobuf #如果你用 chatml / tokenizer 的特殊格式: pip install sentencepiece

准备基础模型

Qwen3-14B: 官方镜像即可

#存放目录: /mnt/data/models/Qwen/Qwen3-14B

下载github转换脚本文件

TensorRT-LLMgithub地址: https://github.com/NVIDIA/TensorRT-LLM/blob/main/examples/models/core/qwen/convert_checkpoint.py

#存放文件目录: /mnt/data/models/tensor/convert_checkpoint.py

转换checkpoint:

python convert_checkpoint.py \ --model_dir /mnt/data/models/Qwen/Qwen3-14B \ --output_dir /mnt/data/models/tensor/trt_checkpoints/qwen3-14b/fp16 \ --dtype fp16

转换模型checkpoint不需要GPU资源,但是当前只使用一个镜像自己完成所有的过程,则需要GPU资源

原则上不需要 GPU

  • 仅涉及权重 reshape/分片
  • 仅涉及 JSON 结构、配置生成
  • 不包含算子编译

构建engine文件:

trtllm-build \ --checkpoint_dir /mnt/data/models/tensor/trt_checkpoints/qwen3-14b/float16 \ --output_dir /mnt/data/models/tensor/engine/qwen3-14b-engine \ --gemm_plugin float16 \ --max_batch_size 8 \ --max_input_len 2048 \ --max_seq_len 4096 \ --kv_cache_type paged \ --workers 16 \ --log_level info

注意:

engine构建是需要GPU资源的,构建engine的GPU资源需要和部实际部署的GPU资源保持一致,

例如:部署使用单卡L20,则构建的engine必须使用相同的GPU资源,型号数量要相同

此步骤需要:

  • CUDA kernel 生成
  • TensorRT builder 编译
  • GPU 上的 profile 校准
  • Plugin 编译优化

必须使用 GPU

  • TensorRT engine 构建只能在 GPU 上完成
  • 并且必须使用目标 GPU(或者至少与目标 GPU 架构兼容)

为什么需要 GPU?

  • TensorRT 需要 GPU 的Compute Capability来生成最优 kernel
  • 不同显卡(A100 / H100 / L20 / RTX4090)生成的 Engine 不能通用!

部署engine:

trtllm-serve serve /mnt/data/models/tensor/engine/qwen3-14b-engine \ --tokenizer /mnt/data/models/Qwen/Qwen3-14B \ --host 0.0.0.0 \ --port 8000 \ --log_level info \ --backend tensorrt \ --tp_size 1 \ --max_batch_size 8 \ --max_seq_len 4096
http://www.jsqmd.com/news/136721/

相关文章:

  • 告别菜鸟!15个网络安全攻防靶场!从零基础入门到精通,收藏这一篇就够了!
  • 基于PLC智能交通灯监控系统
  • 【万字解析】14大类,108款Kali Linux工具盘点,超全超详细_kalilinux工具大全
  • 中文语音合成哪家强?GPT-SoVITS实测结果告诉你
  • Keil MDK下载:工业控制项目开发完整指南
  • GPT-SoVITS与其他TTS工具对比:优势在哪里?
  • 11个免费可商用的无版权音乐素材网站推荐|视频剪辑/自媒体必备
  • 基于单片机的心率测试仪设计
  • 使用ART光学动作捕捉系统,创建大型可重构FLEX沉浸式可视化解决方案
  • vue3中使用echarts实现3D饼图(组件封装)
  • ST7735显示屏SPI通信时序深度剖析
  • 曜华全自动太阳能电池片光纤激光划片机:光伏组件智能制造的第一道密码
  • c++ spidev0.0 read返回255:从时序错误到解决方案实战案例
  • 基于单片机的衣物消毒清洗机系统设计
  • Protues元器件库大全实战案例:项目应用
  • 基于 8086 八音阶电子琴系统设计
  • Pytest框架环境切换实战教程!赶快收藏
  • 深入浅出完整解析LoRA(Low-Rank Adaptation)模型核心基础知识
  • 10、利用附加属性实现强大功能:拖放与滚动的深度解析
  • GPT-SoVITS模型深度解析:音色相似度与自然度兼备的秘密
  • CAPL操作指南:定时器与周期性消息发送实践
  • 【JMeter】 二次开发插件开发 Dubbo 接口测试插件浅析
  • 基于单片机的远程烟雾报警系统
  • 基于Keil5的51单片机开发环境搭建实战案例
  • GPT-SoVITS语音合成精度提升秘诀:数据预处理要点
  • 无需大量算力!GPT-SoVITS轻量级训练方案出炉
  • CCS使用深度剖析:TI C2000调试器配置超详细版
  • GPT-SoVITS训练数据时间跨度影响:长期语音变化对模型的影响
  • GPT-SoVITS训练数据采集伦理准则:尊重知情同意与退出权利
  • 基于 8086 数码管计算器设计