当前位置：首页 > news >正文

rk3588/rk3576使用rkllm推理大模型，提供OpenAI服务

news 2026/7/22 0:16:07

infer-rkllm-openai

gitee开源地址：https://gitee.com/Vanishi/infer-rkllm-openai
github开源地址：https://github.com/beixiaocai/infer-rkllm-openai

基于 Rockchip RKLLM 的视觉语言模型推理服务，提供完全兼容 OpenAI API 格式的 HTTP 接口。

提示: Intel CPU/GPU 用户请查看 https://gitee.com/Vanishi/infer-openvino-openai
作者已准备的模型下载地址：https://pan.quark.cn/s/d2b152fbea26

硬件要求

开发板: Rockchip RK3576 或 RK3588
运行时库:/usr/local/lib/librkllmrt.so和/usr/local/lib/librknnrt.so
内存: 建议 4GB+

快速开始

1. 安装依赖

pip install -r requirements.txt

2. 启动服务

python infer-rkllm-openai.py \ --model-path /path/to/model.rkllm \ --vision-model /path/to/vision.rknn \ --platform rk3576 \ --host 0.0.0.0 --port 9696

常用参数：

--model-path: RKLLM 模型路径（必填）
--vision-model: Vision 模型路径（可选）
--platform: 平台类型，rk3576或rk3588
--host: 服务地址，默认0.0.0.0
--port: 服务端口，默认9696
--rknn-cores: NPU 核心数 (1/2/3)，默认 2

3. 访问服务

首页: http://localhost:9696/
管理后台: http://localhost:9696/dashboard
API: http://localhost:9696/v1/chat/completions

API 使用

Python SDK

from openai import OpenAI client = OpenAI( api_key="sk-rebucca", base_url="http://localhost:9696/v1" ) # 文本对话 response = client.chat.completions.create( model="qwen3-vl-4b", messages=[{"role": "user", "content": "你好"}] ) print(response.choices[0].message.content) # 图片理解 import base64 with open("demo.jpeg", "rb") as f: image_b64 = base64.b64encode(f.read()).decode() response = client.chat.completions.create( model="qwen3-vl-4b", messages=[{ "role": "user", "content": [ {"type": "text", "text": "描述这张图片"}, {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_b64}"}} ] }] ) # 流式输出 stream = client.chat.completions.create( model="qwen3-vl-4b", messages=[{"role": "user", "content": "你好"}], stream=True ) for chunk in stream: if chunk.choices[0].delta.content: print(chunk.choices[0].delta.content, end="", flush=True)

curl

curl http://localhost:9696/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer sk-rebucca" \ -d '{"model":"qwen3-vl-4b","messages":[{"role":"user","content":"你好"}]}'

运行测试

python tests.py # 或指定地址 python tests.py --base-url http://192.168.1.15:9696/v1

环境变量

export RKLLM_LIB=/opt/rkllm/librkllmrt.so export RKNN_LIB=/opt/rknn/librknnrt.so

注意事项

必须在 Rockchip RK3576/RK3588 设备上运行
模型必须为.rkllm和.rknn格式
W4A16 量化模型内存占用约 2-3GB
单线程处理，请求会排队

版本

Python: 3.8+
Flask: >=3.0.0
支持平台: RK3576, RK3588

查看全文

http://www.jsqmd.com/news/862063/

VCG Mesh平滑整形

AI赋能光伏电站智能运维：边缘计算网关如何成为运维中枢？

AI 的持续学习：从会话中提取可复用知识

一文搞懂 Linux 驱动并发与竞争（学习笔记）

2026年工业胶粘材料国产化趋势白皮书：PI 金手指胶带的高温性能与应用突破

深入拆解 MySQL InnoDB 隔离级别：从 MVCC 到临键锁

Go语言内存管理：从tcmalloc到GC优化

2026年AI写作辅助网站实测排行，哪款真正适合写论文？

AI 术语通俗词典：LSTM

注释与常用快捷键

Harness Engineering：智能体异常处理机制

080.领域自适应：当你的YOLO在新车间“水土不服”时

算法28，前缀和，寻找数组中的中心下标

C语言06（操作符）

VxWorks网络通信模块：网络协议栈解析（第五部分）

鸿蒙备考题库页面构建：错题本、小组榜单与备考提示模块详解

QQ家园迷你屋单机版下载：复刻05年经典网页社区，像素风直接拉满

ComfyUI全面掌握-知识点详解——ComfyUI 开发与扩展基础（开发指南+环境搭建）

海量分布式储能节点云边协同架构：边缘网关异步心跳注册与状态上报Python实战

输出函数print

内存管理

【RAG】【retrievers08】基于Together.ai长上下文嵌入的混合检索

4 类国产企业即时通讯平台推荐榜：如何为安全协同构建私有化底

AI 大模型技术架构演进与应用落地瓶颈分析

西门子PLC对接须知：从通信到编程的实战指南

用LLM从零搭3D小世界编辑器｜小白也能搞定的AI Native开发实录

【RHCA+】info命令（模块化的命令帮助文档）

【RAG】【retrievers09】Pathway检索器：实时数据索引与检索

适配多层级组织管理，科学运用 360 度反馈打造公平高效绩效文化

2026年整箱榨菜厂家精选合集 - 行业平台推荐

infer-rkllm-openai

硬件要求

快速开始

1. 安装依赖

2. 启动服务

3. 访问服务

API 使用

Python SDK

curl

运行测试

环境变量

注意事项

版本

相关文章：