当前位置: 首页 > news >正文

rk3588/rk3576使用rkllm推理大模型,提供OpenAI服务

infer-rkllm-openai

  • gitee开源地址:https://gitee.com/Vanishi/infer-rkllm-openai
  • github开源地址:https://github.com/beixiaocai/infer-rkllm-openai

基于 Rockchip RKLLM 的视觉语言模型推理服务,提供完全兼容 OpenAI API 格式的 HTTP 接口。

  • 提示: Intel CPU/GPU 用户请查看 https://gitee.com/Vanishi/infer-openvino-openai
  • 作者已准备的模型下载地址:https://pan.quark.cn/s/d2b152fbea26

硬件要求

  • 开发板: Rockchip RK3576 或 RK3588
  • 运行时库:/usr/local/lib/librkllmrt.so/usr/local/lib/librknnrt.so
  • 内存: 建议 4GB+

快速开始

1. 安装依赖

pip install -r requirements.txt

2. 启动服务

python infer-rkllm-openai.py \ --model-path /path/to/model.rkllm \ --vision-model /path/to/vision.rknn \ --platform rk3576 \ --host 0.0.0.0 --port 9696

常用参数

  • --model-path: RKLLM 模型路径(必填)
  • --vision-model: Vision 模型路径(可选)
  • --platform: 平台类型,rk3576rk3588
  • --host: 服务地址,默认0.0.0.0
  • --port: 服务端口,默认9696
  • --rknn-cores: NPU 核心数 (1/2/3),默认 2

3. 访问服务

  • 首页: http://localhost:9696/
  • 管理后台: http://localhost:9696/dashboard
  • API: http://localhost:9696/v1/chat/completions

API 使用

Python SDK

from openai import OpenAI client = OpenAI( api_key="sk-rebucca", base_url="http://localhost:9696/v1" ) # 文本对话 response = client.chat.completions.create( model="qwen3-vl-4b", messages=[{"role": "user", "content": "你好"}] ) print(response.choices[0].message.content) # 图片理解 import base64 with open("demo.jpeg", "rb") as f: image_b64 = base64.b64encode(f.read()).decode() response = client.chat.completions.create( model="qwen3-vl-4b", messages=[{ "role": "user", "content": [ {"type": "text", "text": "描述这张图片"}, {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_b64}"}} ] }] ) # 流式输出 stream = client.chat.completions.create( model="qwen3-vl-4b", messages=[{"role": "user", "content": "你好"}], stream=True ) for chunk in stream: if chunk.choices[0].delta.content: print(chunk.choices[0].delta.content, end="", flush=True)

curl

curl http://localhost:9696/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer sk-rebucca" \ -d '{"model":"qwen3-vl-4b","messages":[{"role":"user","content":"你好"}]}'

运行测试

python tests.py # 或指定地址 python tests.py --base-url http://192.168.1.15:9696/v1

环境变量

export RKLLM_LIB=/opt/rkllm/librkllmrt.so export RKNN_LIB=/opt/rknn/librknnrt.so

注意事项

  • 必须在 Rockchip RK3576/RK3588 设备上运行
  • 模型必须为.rkllm.rknn格式
  • W4A16 量化模型内存占用约 2-3GB
  • 单线程处理,请求会排队

版本

  • Python: 3.8+
  • Flask: >=3.0.0
  • 支持平台: RK3576, RK3588
http://www.jsqmd.com/news/862063/

相关文章:

  • VCG Mesh平滑整形
  • AI赋能光伏电站智能运维:边缘计算网关如何成为运维中枢?
  • AI 的持续学习:从会话中提取可复用知识
  • 一文搞懂 Linux 驱动并发与竞争(学习笔记)
  • 2026年工业胶粘材料国产化趋势白皮书:PI 金手指胶带的高温性能与应用突破
  • 深入拆解 MySQL InnoDB 隔离级别:从 MVCC 到临键锁
  • Go语言内存管理:从tcmalloc到GC优化
  • 2026年AI写作辅助网站实测排行,哪款真正适合写论文?
  • AI 术语通俗词典:LSTM
  • 注释与常用快捷键
  • Harness Engineering:智能体异常处理机制
  • 080.领域自适应:当你的YOLO在新车间“水土不服”时
  • 算法28,前缀和,寻找数组中的中心下标
  • C语言06(操作符)
  • VxWorks网络通信模块:网络协议栈解析(第五部分)
  • 鸿蒙备考题库页面构建:错题本、小组榜单与备考提示模块详解
  • QQ家园迷你屋单机版下载:复刻05年经典网页社区,像素风直接拉满
  • ComfyUI全面掌握-知识点详解——ComfyUI 开发与扩展基础(开发指南+环境搭建)
  • 海量分布式储能节点云边协同架构:边缘网关异步心跳注册与状态上报Python实战
  • 输出函数print
  • 内存管理
  • 【RAG】【retrievers08】基于Together.ai长上下文嵌入的混合检索
  • 4 类国产企业即时通讯平台推荐榜:如何为安全协同构建私有化底
  • AI 大模型技术架构演进与应用落地瓶颈分析
  • 西门子PLC对接须知:从通信到编程的实战指南
  • 用LLM从零搭3D小世界编辑器|小白也能搞定的AI Native开发实录
  • 【RHCA+】info命令(模块化的命令帮助文档)
  • 【RAG】【retrievers09】Pathway检索器:实时数据索引与检索
  • 适配多层级组织管理,科学运用 360 度反馈打造公平高效绩效文化
  • 2026年整箱榨菜厂家精选合集 - 行业平台推荐