当前位置：首页 > news >正文

MiniCPM-O-4_5-GGUF 全解析

news 2026/4/24 19:46:03

一、模型简介

MiniCPM-O-4_5-GGUF 是面壁智能（OpenBMB）推出的MiniCPM-O-4.5 全模态大模型的轻量化量化版本，采用 GGUF 格式优化，专为端侧与低资源设备设计，是当前开源社区中性能最强、部署门槛最低的全模态小参数模型之一。

MiniCPM-O-4.5 作为面壁智能 MiniCPM 系列的旗舰全模态模型，原生支持图像、视频、音频、文本四大模态输入，可实时输出文本与语音，具备全双工多模态流式交互能力（边看、边听、边说）。而 GGUF 版本通过 INT4/FP16 量化、算子优化与内存压缩技术，在几乎无损核心能力的前提下，将模型显存占用从标准版 18GB 压缩至11GB（INT4）/8GB（GGUF 优化），可在普通 PC、笔记本、边缘网关甚至手机上流畅运行，彻底打破多模态大模型对高端 GPU 的依赖。

该模型于 2026 年 3 月正式开源，依托面壁智能在多模态融合、轻量化架构与端侧推理领域的技术积累，仅以9B 总参数量，在 OpenCompass 权威评测中取得77.6 平均分，超越 GPT-4o、Gemini 2.0 Pro 等闭源模型，接近 Gemini 2.5 Flash 水平，被誉为 “端侧全模态小钢炮”。

二、核心定位与参数

（一）核心定位

MiniCPM-O-4_5-GGUF 的核心定位是：端侧原生、全模态全能、轻量高性能、离线安全可控，聚焦 “小参数撬动大能力、低资源实现强智能”，核心服务三大场景：

端侧离线全模态交互：智能座舱、家庭助手、教育陪伴机器人、便携设备（笔记本 / 平板 / 手机），无需联网即可实现视觉理解、语音对话、文档解析、实时翻译等功能，保障数据隐私。
边缘端轻量化 AI 部署：工业质检、安防监控、智能巡检、边缘网关，低功耗、高实时性处理图像 / 视频 / 音频流，降低云端依赖与带宽成本。
开发者友好型全模态底座：开源免费、架构开放、多框架适配（llama.cpp、vLLM、OpenVINO、Ollama），支持二次开发与场景定制，助力 AI 应用快速落地。

区别于其他多模态模型：

比 GPT-4o/Gemini 更轻量：9B 参数 vs 万亿级参数，端侧可跑、成本极低；
比 MiniCPM-V 更全能：支持全双工语音对话 + 声音克隆 + 视频流实时理解，而非仅图像文本；
比其他开源多模态模型（如 Qwen-VL、Llava）性能更强：OpenCompass 77.6 分，视觉理解超越 72B 级模型；
GGUF 版本比标准版更易部署：CPU 可跑、内存需求低、推理速度快，普通笔记本即可流畅运行。

（二）核心参数

1. 基础参数

模型全称：MiniCPM-O-4_5-GGUF（MiniCPM-O-4.5-GGUF）
开发团队：面壁智能（OpenBMB）
发布时间：2026 年 3 月
总参数量：9B（视觉编码器 400M + 音频编码器 1.5B + 语言模型 8B + 语音解码器 0.5B）
基础架构：端到端全模态融合架构（SigLip2 + Whisper-medium + Qwen3-8B + CosyVoice2）
量化格式：GGUF（支持 INT4/FP16 量化，默认 INT4）
上下文窗口：原生 8K，支持扩展至 32K（稀疏注意力优化）
支持模态：图像（静态 / 高清）、视频（高帧率 / 长视频）、音频（语音 / 环境音）、文本（中英双语）
输出模态：文本、自然语音（中英双语，音色可配置）
交互能力：全双工流式交互（实时听、看、说，无阻塞）、多轮对话、上下文记忆

2. 性能参数（OpenCompass 评测，8 大基准）

综合得分：77.6（超越 GPT-4o 75.2、Gemini 2.0 Pro 76.1，接近 Gemini 2.5 Flash 78.3）
视觉理解：78.2（超越 Qwen2.5-VL 72B、Llava-34B）
中文能力：79.5（中文语音识别 CER 低至 0.86%）
英文能力：76.8（双语理解均衡）
视频理解：75.9（96 倍 Token 压缩率，支持 1 小时长视频）
OCR 能力：82.1（手写体 / 复杂表格 / 票据识别，业界领先）

3. 资源占用（GGUF 版本）

显存需求（GPU）：INT4 量化 11GB，FP16 量化 16GB
内存需求（CPU）：8GB（最低 6GB，需关闭缓存）
存储需求：模型文件约 5GB（INT4 GGUF）
推理速度（CPU，i7-12700H）：文本生成 15-20 token/s，图像理解 2-3 秒 / 图，语音对话 0.5-1 秒响应
推理速度（GPU，RTX 4060）：文本生成 80-100 token/s，图像理解 0.3-0.5 秒 / 图，语音对话毫秒级响应

三、关键技术与架构

MiniCPM-O-4_5-GGUF 的核心优势源于四大技术创新：端到端全模态融合架构、3D-Resampler 高效视频编码、GGUF 量化优化、全双工流式交互引擎。整体架构采用 “编码器 - 融合层 - 解码器” 三层设计，四大模态编码器并行处理输入，经跨模态融合后由语言 / 语音解码器生成输出，全程端到端训练，无中间损耗。

（一）整体架构

MiniCPM-O-4.5 整体架构分为五大核心模块，GGUF 版本在此基础上对各模块权重进行量化优化，适配端侧设备：

视觉编码器（SigLip2-400M）：处理图像 / 视频输入，基于 SigLip2 架构，400M 参数，支持 180 万像素高清图像输入，采用 3D-Resampler 实现视频 Token 压缩（最高 96 倍），高效提取视觉特征。
音频编码器（Whisper-medium）：处理语音 / 环境音输入，基于 Whisper-medium 架构，1.5B 参数，支持中英双语语音识别，实时提取音频特征，流式处理语音流。
跨模态融合层（Navit Fusion）：核心中枢，将视觉、音频、文本特征对齐融合，基于 Qwen3-8B 语言模型的注意力机制，实现跨模态语义理解与推理，支持多模态特征深度交互。
语言解码器（Qwen3-8B）：生成文本输出，8B 参数，基于 Qwen3 架构，支持 8K 上下文窗口，稀疏注意力优化，长文本生成流畅，指令遵循能力强。
语音解码器（CosyVoice2）：生成自然语音输出，0.5B 参数，基于 CosyVoice2 架构，支持中英双语语音合成，音色可配置，声音克隆，实时流式语音输出。

（二）关键技术详解

1. 端到端全模态融合技术

传统多模态模型多采用 “预训练编码器 + 独立语言模型” 的拼接模式，跨模态融合能力弱、信息损耗大、推理延迟高。MiniCPM-O-4.5 采用端到端联合训练，四大模块共享语义空间，全程协同优化，实现三大突破：

特征无缝对齐：视觉、音频、文本特征统一映射至 Qwen3-8B 的语义空间，无模态隔阂，理解更精准；
信息无损传递：跨模态融合层直接连接编码器与解码器，无中间转换损耗，推理效率提升 30%+；
多模态协同推理：支持图像、视频、音频、文本同时输入、联合理解，例如边看视频边听语音边回答问题，语义关联更紧密。

2. 3D-Resampler 高效视频编码技术

视频理解是多模态模型的难点，高帧率 / 长视频会导致 Token 爆炸（1 分钟视频约 10 万 Token），无法高效处理。MiniCPM-O-4.5 创新3D-Resampler 图像 - 视频统一编码架构，实现：

96 倍 Token 压缩率：将 1 小时长视频压缩至 1000 Token 以内，显存占用降低 96%，可高效处理长视频内容；
高帧率视频理解：支持 60fps 视频输入，精准捕捉动态细节（如工业缺陷、异常行为）；
图像 - 视频通用编码：静态图像与动态视频共用一套编码器，减少冗余，提升模型效率。

3. GGUF 量化与端侧优化技术

GGUF（GGML Universal Format）是专为端侧推理设计的量化格式，由 llama.cpp 团队开发，支持高压缩率、低延迟、跨平台部署。MiniCPM-O-4_5-GGUF 基于 GGUF 进行三大优化：

INT4 极致量化：将模型权重从 FP16（2 字节）压缩至 INT4（0.5 字节），体积缩小 75%，显存占用从 16GB 降至 11GB，性能损失小于 3%（仅复杂推理场景略有下降，日常场景无感知）；
算子深度优化：针对 CPU/GPU/NPU 优化算子实现，支持 AVX-512、CUDA、OpenVINO、RKNPU 加速，推理速度提升 50%-200%；
内存按需分配：采用动态内存管理，仅加载当前推理所需权重，支持 8GB 内存设备流畅运行，避免内存溢出。

4. 全双工流式交互引擎

传统语音交互多为 “半双工”（说完再答），体验割裂、延迟高。MiniCPM-O-4.5 原生支持全双工多模态流式交互，实现 “边看、边听、边说”：

实时并行处理：视觉、音频、文本输入流并行处理，无阻塞，响应延迟低至 500ms；
流式输出：文本逐字生成、语音逐帧合成，无需等待完整结果，体验流畅；
双向实时交互：用户可随时打断模型输出，模型实时响应新指令，支持自然对话节奏。

5. 思考 / 指令双模式切换

MiniCPM-O-4.5 支持 ** 思考模式（Deep Think）与指令模式（Fast Instruct）** 动态切换，平衡性能与效率：

思考模式：深度推理、复杂问题解决（如数学计算、逻辑推理、文档深度解析），推理速度较慢（10-15 token/s），但准确率更高；
指令模式：快速响应、日常交互（如聊天、简单问答、图像快速识别），推理速度快（20-30 token/s），资源占用更低；
自动切换：模型可根据输入复杂度自动切换模式，无需手动配置。

四、核心能力

MiniCPM-O-4_5-GGUF 具备七大核心能力，覆盖视觉、语音、文本、视频四大模态，全能且均衡，是端侧全模态交互的 “瑞士军刀”。

（一）顶尖视觉理解能力

高清图像解析：支持 180 万像素高清图像输入，精准识别物体、场景、文字、图表、手写体，OCR 准确率超 98%，复杂表格 / 票据识别业界领先；
多图像关联分析：同时分析多张图像的逻辑关系与语义连接，例如对比两张产品图的差异、分析多张报表的趋势关联；
细粒度视觉识别：精准识别微小缺陷（如工业产品划痕、电子元件焊接不良）、面部表情、动作姿态，适用于工业质检、安防监控、行为分析；
三维空间理解：理解图像中的空间关系、物体位置、深度信息，支持场景重建、空间导航、AR 交互。

（二）全双工语音交互能力

中英双语实时对话：支持中英双语语音识别与合成，中文语音识别 CER 低至 0.86%，自然度接近真人，音色可配置（支持自定义音色）；
全双工流式交互：边听边说、实时响应、可打断，对话流畅自然，无延迟割裂，体验接近人类交流；
声音克隆与角色扮演：通过 5 秒参考音频即可克隆目标声音，支持多角色语音对话（如虚拟助手、卡通形象、名人音色）；
语音指令控制：支持离线语音指令（如 “打开文档”“分析图片”“播放音乐”），无需联网，响应速度快。

（三）高效视频理解能力

长视频内容解析：96 倍 Token 压缩率，支持 1 小时长视频输入，精准理解视频内容、剧情、动作、对话，生成视频摘要、关键帧提取、内容总结；
高帧率动态分析：支持 60fps 视频流实时处理，捕捉动态细节（如运动轨迹、异常行为、产品缺陷），适用于安防监控、智能巡检、体育分析；
视频 - 语音 - 文本联合理解：边看视频边听语音边理解文本，例如分析视频中的对话内容、解读视频中的文字信息、回答视频相关问题。

（四）强大文档处理能力

全类型文档解析：支持 PDF、Word、Excel、图片文档、扫描件、手写文档的解析，精准提取文字、表格、图表、公式，还原文档结构；
票据 / 合同 / 报表处理：自动识别票据金额、日期、收款人，审核合同条款、识别风险点，分析报表数据、生成趋势总结，适用于金融、办公、法律行业；
多语言文档翻译：中英双语文档实时翻译，保留格式与排版，支持长文档批量处理。

（五）离线全模态智能助手

端侧离线运行：无需联网，所有数据本地处理，保护隐私，避免数据泄露，适用于家庭、车载、工业等隐私敏感场景；
多模态交互：支持语音、图像、文本、手势交互，例如 “帮我看看这张药盒说明书”（语音 + 图像）、“总结这份文档”（文本 + 文档）；
个性化定制：支持自定义助手名称、音色、性格、功能，适配不同场景需求（如儿童教育、老人陪伴、工业助手）。

（六）跨语言实时翻译

中英双语全模态翻译：支持文本、语音、图像、视频的中英双语实时翻译，例如翻译图片中的英文、语音对话实时互译、视频字幕翻译；
离线翻译：无需联网，本地实时翻译，响应速度快，适用于跨境交流、旅游、商务洽谈。

（七）开发者友好二次开发

开源免费：模型权重、代码、文档全部开源，商用免费，无版权限制；
多框架适配：支持 Hugging Face、llama.cpp、vLLM、OpenVINO、Ollama、TensorRT 等主流框架，易于集成部署；
API 接口丰富：提供 Python/JavaScript/Java 等多语言 API，支持快速开发应用（如智能相机、文档解析工具、语音助手）；
场景定制灵活：支持微调、LoRA 训练、提示词工程，适配特定行业场景（如医疗影像、工业质检、教育内容）。

五、硬件要求与部署

MiniCPM-O-4_5-GGUF 最大优势之一是极低的硬件门槛，支持 CPU/GPU/NPU 多平台部署，从普通笔记本到高端服务器均可运行，适配端侧、边缘、云端全场景。

（一）硬件要求

1. 最低配置（可运行，基础体验）

CPU：Intel i5-10400 / AMD R5-5600G 及以上（4 核 8 线程）
内存：6GB DDR4 及以上
存储：10GB 空闲空间（存放模型文件）
系统：Windows 10+ / macOS 12+ / Linux Ubuntu 20.04+
体验：文本生成 10-15 token/s，图像理解 3-5 秒 / 图，语音对话 1-2 秒响应，适合轻量测试、学习研究。

2. 推荐配置（流畅运行，主流体验）

CPU：Intel i7-12700H / AMD R7-6800H 及以上（6 核 12 线程，支持 AVX-512）
内存：8GB DDR5 及以上（双通道优先）
存储：20GB 空闲空间（SSD 优先，提升加载速度）
系统：Windows 11 / macOS 14+ / Linux Ubuntu 22.04+
体验：文本生成 15-20 token/s，图像理解 2-3 秒 / 图，语音对话 0.5-1 秒响应，适合日常使用、端侧应用开发。

3. 高性能配置（极速体验，专业应用）

GPU：NVIDIA RTX 4060/4070/4090（12GB + 显存）/ AMD RX 7900 XTX（20GB + 显存）
内存：16GB DDR5 及以上
存储：50GB NVMe SSD（极速加载）
系统：Windows 11 / Linux Ubuntu 22.04+
体验：文本生成 80-150 token/s，图像理解 0.2-0.5 秒 / 图，语音对话毫秒级响应，适合工业质检、安防监控、专业内容创作。

4. 边缘 / 嵌入式配置（轻量化部署，低功耗）

设备：Jetson Orin Nano（8GB 共享内存）、RK3588（8GB NPU）、树莓派 5（8GB）、手机（iPhone 16 Pro Max / 安卓旗舰）
优化：GGUF INT4 量化 + NPU 加速，内存占用控制在 4-6GB
体验：文本生成 5-10 token/s，图像理解 3-5 秒 / 图，语音对话 1-2 秒响应，适合智能硬件、便携设备、嵌入式系统。

（二）部署指南（llama.cpp 快速部署，CPU/GPU 通用）

llama.cpp 是端侧推理最流行的框架，支持 GGUF 格式模型，部署简单、速度快、跨平台，推荐新手使用。

1. 环境准备

# 1. 克隆 llama.cpp 仓库（适配 MiniCPM-O 全模态） git clone https://github.com/OpenBMB/llama.cpp-omni.git cd llama.cpp-omni # 2. 安装依赖（Python 3.9+） pip install -r requirements.txt # 3. 编译（CPU 版本，默认开启 AVX-512） make # 3. 编译（GPU 版本，NVIDIA CUDA） make CUDA=1

2. 下载模型（GGUF INT4 版本）

从面壁智能 Hugging Face 仓库下载 MiniCPM-O-4_5-GGUF 模型文件（约 5GB）：

# 安装 Hugging Face Hub pip install huggingface_hub # 下载模型 huggingface-cli download openbmb/MiniCPM-O-4_5-GGUF --local-dir ./models --local-dir-use-symlinks False

3. 启动推理（命令行交互）

# CPU 模式（8GB 内存） ./main -m ./models/minicpm-o-4_5-int4.gguf -n 2048 -c 8192 --color --interactive # GPU 模式（RTX 4060，12GB 显存） ./main -m ./models/minicpm-o-4_5-int4.gguf -n 2048 -c 8192 --color --interactive -ngl 35

4. Python API 调用（集成应用开发）

from llama_cpp import Llama from PIL import Image import base64 from io import BytesIO # 加载模型 llm = Llama( model_path="./models/minicpm-o-4_5-int4.gguf", n_ctx=8192, # 上下文窗口 n_threads=8, # CPU 线程数 n_gpu_layers=35, # GPU 加速层数（GPU 模式） multimodal=True # 启用多模态 ) # 图像理解示例 image = Image.open("test.jpg").convert("RGB") buffered = BytesIO() image.save(buffered, format="JPEG") img_base64 = base64.b64encode(buffered.getvalue()).decode("utf-8") # 多模态对话 output = llm.create_completion( prompt="这张图片里有什么？", images=[img_base64], max_tokens=512, stream=True ) # 流式输出 for token in output: print(token["choices"][0]["text"], end="", flush=True)

5. 其他部署方式

OpenVINO 部署（Intel CPU/NPU 加速）：适合 Intel 设备，推理速度提升 50%，支持 Windows/Linux；
vLLM 部署（GPU 高性能推理）：适合批量处理、高并发场景，吞吐量提升 2-5 倍；
Ollama 部署（一键启动，极简体验）：适合快速测试、日常使用，一行命令启动服务；
RKNPU 部署（瑞芯微边缘设备）：适合 RK3588 等嵌入式设备，NPU 加速，低功耗运行。

六、应用场景

MiniCPM-O-4_5-GGUF 凭借全模态能力、离线运行、轻量部署、隐私安全四大优势，广泛应用于家庭、车载、工业、教育、金融、安防六大领域，覆盖 20+ 细分场景，赋能端侧智能升级。

（一）家庭智能助手（离线隐私优先）

老人陪伴助手：语音控制、药品说明书解读（图像 + 语音）、健康咨询、天气查询、新闻播报，离线运行，保护家庭隐私；
儿童教育机器人：看书识字、绘本讲解、口算练习、英语启蒙、故事播放，支持语音克隆（父母声音讲故事），护眼模式，无蓝光危害；
全屋智能控制：离线语音指令控制灯光、空调、电视、窗帘，图像识别家庭环境、异常情况（如漏水、冒烟），自动报警；
家庭文档处理：自动解析户口本、房产证、发票、合同，提取关键信息，生成电子档案，本地存储，隐私安全。

（二）车载智能座舱（离线实时交互）

离线语音助手：隧道、山区等无网络区域，语音控制导航、音乐、空调、车窗，实时响应，无延迟；
驾驶安全辅助：摄像头识别驾驶员疲劳、分心、打电话，实时语音提醒；识别道路标识、红绿灯、障碍物，辅助驾驶；
后排娱乐交互：乘客语音聊天、图像识别（窗外风景、车内物品）、视频内容理解、中英双语翻译，提升乘车体验；
车辆故障诊断：拍摄仪表盘、故障灯、发动机部件，模型本地分析故障原因，提供维修建议，无需联网查询。

（三）工业质检与巡检（边缘实时处理）

生产线缺陷检测：摄像头拍摄产品高清图，模型本地实时识别划痕、变形、色差、装配错误、印刷瑕疵，准确率超 99%，自动报警，替代人工目检；
设备巡检机器人：搭载摄像头与麦克风，巡检工业设备（电机、阀门、管道），识别设备磨损、泄漏、异响，生成巡检报告，实时回传异常信息；
工业文档解析：自动解析设备说明书、图纸、工艺文件、维修记录，提取操作步骤、参数、注意事项，支持语音朗读，辅助工人操作；
仓储物流管理：识别货物标签、二维码、条形码，自动录入库存信息；识别货物破损、变形、错装，实时提醒，提升仓储效率。

（四）教育与培训（个性化离线学习）

智能教学终端：离线运行，支持课本扫描、知识点讲解、习题解析、作文批改、英语口语测评，多模态交互，提升学习兴趣；
职业技能培训：工业操作、医疗护理、汽车维修等技能培训，视频实时解析、步骤讲解、错误纠正，支持语音交互，离线学习，随时随地提升技能；
语言学习助手：中英双语实时翻译、口语练习、单词记忆、语法讲解，支持语音克隆（外教声音教学），离线运行，无网络也能学习；
学术文档处理：自动解析论文、期刊、报告，提取摘要、关键词、图表、公式，生成文献综述，支持多语言翻译，辅助学术研究。

（五）金融与办公（高效隐私处理）

票据自动处理：银行、财务公司自动识别发票、支票、汇票、收据，提取金额、日期、收款人信息，自动录入财务系统，降低人工误差，提升效率；
合同智能审核：自动解析合同文本，识别风险条款、关键信息（金额、期限、责任），生成审核报告，提示修改建议，适用于法律、企业合规场景；
办公文档助手：Word/Excel/PDF 文档解析、摘要生成、格式转换、多语言翻译，支持批量处理，提升办公效率；
客户服务机器人：离线语音客服，支持中英双语对话、产品咨询、订单查询、投诉处理，图像识别产品问题，实时解答，降低人工客服成本。

（六）安防与监控（实时智能分析）

智能视频监控：商场、小区、工厂、学校实时监控视频分析，识别异常行为（打架、翻越、遗留物品）、人员身份、物品信息，自动语音报警，实时预警；
人脸识别与追踪：离线人脸识别，支持人脸库比对、人员追踪、陌生人预警，适用于门禁、考勤、安防场景，本地处理人脸数据，保护隐私；
环境异常监测：识别火灾、烟雾、漏水、漏电、有害气体等环境异常，实时报警，联动消防、安防设备，提升安全防护能力；
交通违章识别：路口监控视频分析，识别闯红灯、超速、逆行、压线、未系安全带等违章行为，自动记录，生成违章报告，辅助交通管理。

七、应用实战：端侧智能文档解析工具

（一）项目背景

办公场景中，大量纸质文档、扫描件、PDF 需要人工解析信息，效率低、易出错、隐私泄露风险高。基于 MiniCPM-O-4_5-GGUF 开发端侧智能文档解析工具，实现离线文档解析、信息提取、摘要生成、格式还原，本地处理数据，保护隐私，提升办公效率。

（二）技术选型

模型：MiniCPM-O-4_5-GGUF（INT4 量化，8GB 内存可运行）
框架：llama.cpp（端侧推理）+ Gradio（Web 界面）
语言：Python 3.10
部署：本地 CPU 运行（i7-12700H，8GB 内存）

（三）核心功能

多格式文档上传：支持 PDF、Word、Excel、图片（JPG/PNG）、扫描件、手写文档；
离线解析：本地处理，无需联网，保护文档隐私；
信息提取：自动提取文字、表格、图表、公式、关键信息（金额、日期、姓名）；
摘要生成：生成文档核心摘要、关键词、重点内容；
格式还原：保留原文档排版、表格结构、图片位置；
多语言支持：中英双语文档解析、翻译；
批量处理：支持多文档批量上传、解析、导出结果。

（四）实现代码

1. 环境安装

pip install gradio pillow python-docx PyPDF2 pandas openpyxl

2. 核心代码（app.py）

import gradio as gr from llama_cpp import Llama from PIL import Image import base64 from io import BytesIO import PyPDF2 from docx import Document import pandas as pd # 加载 MiniCPM-O-4_5-GGUF 模型 llm = Llama( model_path="./models/minicpm-o-4_5-int4.gguf", n_ctx=8192, n_threads=8, multimodal=True ) # 图像转 Base64 def image_to_base64(image): buffered = BytesIO() image.save(buffered, format="JPEG") return base64.b64encode(buffered.getvalue()).decode("utf-8") # 文档解析函数 def parse_document(file, file_type): try: if file_type == "image": # 解析图片文档 image = Image.open(file).convert("RGB") img_base64 = image_to_base64(image) prompt = "请详细解析这张图片中的内容，提取文字、表格、关键信息，生成摘要，保留格式。" output = llm.create_completion( prompt=prompt, images=[img_base64], max_tokens=1024, temperature=0.3 ) return output["choices"][0]["text"] elif file_type == "pdf": # 解析 PDF 文档 pdf_reader = PyPDF2.PdfReader(file) text = "" for page in pdf_reader.pages: text += page.extract_text() prompt = f"请详细解析以下PDF文档内容，提取关键信息、生成摘要：\n{text[:3000]}" output = llm.create_completion( prompt=prompt, max_tokens=1024, temperature=0.3 ) return output["choices"][0]["text"] elif file_type == "docx": # 解析 Word 文档 doc = Document(file) text = "\n".join([para.text for para in doc.paragraphs]) prompt = f"请详细解析以下Word文档内容，提取关键信息、生成摘要：\n{text[:3000]}" output = llm.create_completion( prompt=prompt, max_tokens=1024, temperature=0.3 ) return output["choices"][0]["text"] elif file_type == "excel": # 解析 Excel 文档 df = pd.read_excel(file) text = df.to_string() prompt = f"请详细解析以下Excel表格内容，提取关键信息、生成摘要：\n{text[:3000]}" output = llm.create_completion( prompt=prompt, max_tokens=1024, temperature=0.3 ) return output["choices"][0]["text"] except Exception as e: return f"解析失败：{str(e)}" # Gradio 界面 with gr.Blocks(title="端侧智能文档解析工具") as demo: gr.Markdown("# 📄 端侧智能文档解析工具（MiniCPM-O-4_5-GGUF）") gr.Markdown("### 离线运行 · 隐私安全 · 多格式解析 · 信息提取 · 摘要生成") with gr.Row(): file_input = gr.File(label="上传文档", file_types=[".jpg", ".png", ".pdf", ".docx", ".xlsx"]) file_type = gr.Dropdown( label="文档类型", choices=["image", "pdf", "docx", "excel"], value="image" ) submit_btn = gr.Button("开始解析", variant="primary") output_text = gr.Textbox(label="解析结果", lines=20, interactive=False) submit_btn.click( fn=parse_document, inputs=[file_input, file_type], outputs=output_text ) if __name__ == "__main__": demo.run(server_name="0.0.0.0", server_port=7860)