TensorRT-Edge-LLM详解
TensorRT-Edge-LLM 作用、架构与和 TensorRT-LLM 的差异
1. 是什么、解决什么问题
TensorRT-Edge-LLM是 NVIDIA 面向嵌入式 / 端侧的 LLM/VLMC++ 推理运行时,目标平台是Jetson(Orin/Thor)和DRIVE Thor,而不是数据中心 GPU 集群。
核心诉求:
- 在显存、功耗、算力受限的设备上跑 SOTA 语言/多模态模型
- 整条链路可在 Edge 设备上完成(ONNX 导出可在 x86,Engine Build + 推理在板端)
- 生产部署无 Python 依赖(C++ runtime;另有 experimental Python server)
- 面向车载、机器人、工业 IoT 等低延迟、离线、隐私场景
与TensorRT-LLM(数据中心推理栈)是并列产品线,不是其子集:Edge 重「单设备可部署」,TRT-LLM 重「多卡吞吐与服务化」。
