当前位置: 首页 > news >正文

SOPHON-Learning

SOPHON-BM1684X

  • BM1684X
    • 基础知识介绍
    • 基础命令
    • 内存管理
    • 开发环境配置
    • SophonSDK的使用
      • 视频编解码
    • 模型部署
      • 基础知识(==以下命令需要在host上执行并添加环境变量:/opt/sophon/libsophon-current/bin ==)
      • TPU-MLIR框架转换模型
        • 配置环境
        • ONNX 模型转换(==需要在指定的docker环境中执行==):
        • 模型性能测试(==需要在BM1684x 主机环境上执行==)
      • 图像预处理
      • 模型推理

BM1684X

基础知识介绍


PCIe Mode:BM1684/BM1684X的一种工作形态,作为加速设备来进行使用,客户算法运行于x86主机
SoC Mode:BM1684/BM1684X的一种工作形态,本身作为主机独立运行,客户算法可以直接运行其上
arm_pcie Mode:BM1684/BM1684X的一种工作形态,搭载BM1684/BM1684X的板卡作为PCIe从设备插到ARM处理器的服务器上,客户算法运行于ARM处理器的主机上

  • 模型相关:
    UFramework(ufw):算能自定义的基于Caffe的深度学习推理框架;类似于TensorRT。
    Umodel:算能自定义的UFamework下的模型格式,为量化模型时使用的中间模型格式;类似于onnx
    BModel:使用算能智能视觉深度学习推理框架优化后的模型文件;;类似于tensorRT 的 engine 文件
    TPU-MLIR:网络编译器工程,可以将不同框架下预训练的神经网络,转化为可以在算能TPU处理器上高效运算的bmodel。

  • 基础工具:
    tpu-mlir: 为Tensor Processing Unit编译器工程提供一套完整的工具链,可以将不同框架下预训练的神经网络,转化为可以在算能智能视觉深度学习处理器上高效运行的二进制文件BModel。目前直接支持的框架包括tflite、onnx和Caffe。
    tpu-nntc: 负责对第三方深度学习框架下训练得到的神经网络模型进行离线编译和优化,生成最终运行时需要的BModel。目前支持Caffe、Darknet、MXNet、ONNX、PyTorch、PaddlePaddle、TensorFlow等
    tpu-perf: 为模型性能和精度验证提供了一套完整工具包。
    tpu-kernel: 是Tensor Processing Unit底层开发接口,既可以调用专用指令实现深度学习业务逻辑的加速,又可以调用通用指令实现客制的各种算法加速。

  • 算子开发:
    **自定义算子高级编程库 BMLang:**基于C++的面向SOPHON 智能视觉深度学习处理器的高级编程库,与硬件信息解耦,无需了解硬件架构,使用张量数据(bmlang::Tensor)和计算操作(bmlang::Operator)编写代码,最后使用bmlang::compile或bmlang::compile_with_check来生成智能视觉深度学习处理器可以运行的BModel;此外也支持使用BM168X中的arm 处理器来实现智能视觉深度学习处理器尚不支持的算子。

基础命令

  1. 查询设备基本信息:bm_get_basic_info

  2. 查看设备版本信息:bm_version

  3. 查询设备温度:bm_get_temperature

  4. 查看TPU使用率:bm-smi、bm_top

  5. 查看VPU使用率 :cat /proc/vpuinfo

  6. SOC模式下bm-smi 命令支持的参数:
    - 将设备状态重定向到文件: bm-smi --file=./bm-smi.log
    - 设置查询设备状态的间隔(>=300ms,default=500ms):bm-smi --lms=1000
    - 设置单次运行/周期运行:bm-smi --loop; bm-smi --noloop
    - 查看帮助:bm-smi --help
    - 查看内存监控:bm-smi --opmode=display_memory_detail
    - 查看vpu和jpu的利用率:bm-smi --opmode=display_util_detail

  7. SOC模式下通过/proc文件系统设备节点查询设备状态:
    - 查询jpu计算单元状态:cat /proc/jpuinfo
    - 查询vpu计算单元状态:cat /proc/vpuinfo
    - 查询vpp计算单元状态:cat /proc/vppinfo

"total_mem_size":178257920,"used_mem_size":153092096,"free_mem_size":25165824,{"vdec_coreid":0,"link_num":1,"usage(instant|long)":8%|0%}{"channel":"0","res":1920x1088,"fps":50(25),"time":175127920,"in_frames":402,"out_frames":402,"fail_frames":0,"success_not_get":0,"status":6},{"vdec_coreid":1,"link_num":1,"usage(instant|long)":8%|0%}{"channel":"0","res":1920x1088,"fps":50(25),"time":175127946,"in_frames":373,"out_frames":373,"fail_frames":0,"success_not_get":0,
http://www.jsqmd.com/news/471866/

相关文章:

  • Qwen3-VL-2B快速部署:HTTP按钮启动WebUI详细步骤
  • OpenCL 一致性测试套件(OpenCL-CTS)完整指南
  • 车机跨屏交互实战控:AndroidAutomotive跨屏显示与触摸传递实践
  • 基于马尔科夫链蒙特卡洛Markov Chain Monte Carlo,MCMC的数据生成方法研究附Matlab代码
  • JAVA中的IO流通俗解释(Input)/(Output)(音谱特)/(奥特谱特)
  • 聊聊2026年正规的厨电以旧换新机构,实力强活动都有哪些 - 工业推荐榜
  • 圣女司幼幽-造相Z-Turbo在同人创作中的应用:3步生成牧神记风格角色图
  • 基于蒙特卡洛,copula函数,fuzzy-kmeans获取6个典型场景进行随机优化多类型电动汽车采用分时电价调度,考虑上级电网出力、峰谷差惩罚费用、风光调度、电动汽车负荷调度费用和网损费用
  • 两会收官:讨论的这些热门话题,TDengine 和伙伴做到了
  • markdown使用记录
  • 广告创意团队实战:Z-Image-Turbo快速产出多版视觉稿方案
  • StarRocks与ClickHouse的对比
  • Youtu-VL-4B-Instruct OCR效果展示:模糊文字/倾斜排版/多语言混合识别案例
  • 轻量级向量模型崛起:Qwen3-Embedding-4B在边缘设备部署尝试
  • 2026年山西靠谱的不锈钢保安亭生产厂家推荐,专业品质 - myqiye
  • 云容笔谈惊艳效果展示:背景虚实渐变+发丝根根分明的1024p高清卷轴作品
  • 基于模糊认知图和遗传算法的牙齿龋齿程度检测附Matlab代码
  • 通义千问1.8B-Chat-GPTQ-Int4镜像特性:Chainlit支持文件上传+RAG插件扩展
  • nlp_gte_sentence-embedding_chinese-large快速上手:Jupyter中向量可视化简易实现
  • 用过才敢说!千笔·降AIGC助手,本科生论文降AI率首选
  • 2026年商城小程序开发指南:北京定制化服务商如何助力零售数字化转型 - 品牌2026
  • AnimateDiff企业级部署:Nginx反向代理+多用户隔离生产环境搭建
  • Stable-Diffusion-v1-5-archive开源可部署:Comfy-Org官方归档版本地部署教程
  • 灵感画廊部署教程:SDXL 1.0模型安全扫描(HuggingFace Safetensors)验证流程
  • 2026年贵州翡翠回收哪家靠谱?实力强服务好 覆盖全贵州区域 满足个人与企业需求 - 深度智识库
  • Qwen3-TTS开源镜像部署:Jetson Orin边缘设备上1.7B模型实时语音合成
  • M2LOrder情绪识别效果展示:法律文书情感中立性自动校验案例
  • QwQ-32B开源大模型入门指南:ollama环境下的推理能力边界测试
  • lite-avatar形象库基础教程:理解.png预览图与.zip权重文件的核心作用
  • 使用logstash同步es数据(6.8-9.3目的端先创建好mapping)