当前位置：首页 > news >正文

Qwen3.5-9B-AWQ-4bit效果展示：模糊截图/低清图/多文字表格的OCR鲁棒性测试

news 2026/7/23 22:43:09

Qwen3.5-9B-AWQ-4bit效果展示：模糊截图/低清图/多文字表格的OCR鲁棒性测试

1. 模型能力概述

Qwen3.5-9B-AWQ-4bit是一个支持图像理解的多模态模型，能够结合上传图片与文字提示词，输出中文分析结果。这个量化版本特别适合处理图片主体识别、场景描述、图片问答以及简单OCR辅助理解等任务。

在实际测试中，我们发现这个模型对模糊截图、低清图片以及包含多文字表格的图像有着出色的识别能力。下面将通过一系列真实案例，展示模型在这些挑战性场景下的表现。

2. 测试环境与设置

2.1 测试平台配置

本次测试使用的是双RTX 4090 D 24GB显卡部署的镜像环境，模型目录为：

/root/ai-models/cyankiwi/Qwen3___5-9B-AWQ-4bit

2.2 测试参数设置

为了获得稳定可靠的测试结果，我们采用了以下参数配置：

参数名称	设置值	说明
最大输出长度	192	控制回答内容的长度
温度	0.7	平衡回答的创造性和稳定性
提示词	详见各测试案例	根据测试场景定制

3. 模糊截图识别测试

3.1 测试场景描述

我们选取了三种典型的模糊截图进行测试：

手机截屏后经过多次压缩的图片
视频会议中的模糊截图
低光照条件下拍摄的屏幕照片

3.2 测试案例展示

案例1：多次压缩的微信聊天截图

上传图片后使用提示词：

请读取图片中的文字内容，并总结对话主题

模型输出：

图片显示的是一个微信聊天截图，虽然画质模糊但仍能识别主要内容。对话围绕"项目进度汇报"展开，主要讨论了本周工作完成情况、遇到的问题以及下周计划。截图中有"UI设计稿已完成"、"后端接口开发延迟"等关键信息。

案例2：视频会议模糊截图

上传图片后使用提示词：

请描述这张图片中的主要内容，特别是PPT上的文字

模型输出：

这是一张视频会议截图，画质较模糊但能辨认出主要内容。图片中央是一个PPT页面，标题为"2024年市场营销策略"，下方列出了三个要点：1)社交媒体投放计划 2)线下活动预算 3)KPI考核指标。虽然部分文字不清晰，但模型成功识别了这些关键信息。

4. 低清图片识别测试

4.1 测试场景描述

我们测试了模型在以下低清图片场景的表现：

网络下载的低分辨率图片
老照片扫描件
缩略图放大后的图片

4.2 测试案例展示

案例1：低分辨率商品图

上传图片后使用提示词：

请描述这张图片展示的商品及其主要特征

模型输出：

这是一张低分辨率的电子产品图片，展示的是一款黑色无线耳机。虽然画质不高，但仍能识别出耳机采用入耳式设计，配有充电盒。图片右下角有模糊的品牌logo，识别为"SoundPlus"。耳机表面有细微的纹理设计，充电盒正面有一个指示灯。

案例2：老照片扫描件

上传图片后使用提示词：

请描述这张老照片中的场景和人物

模型输出：

这是一张泛黄的老照片扫描件，画质较差但主要内容可辨。照片拍摄于室内，中央是一位穿旗袍的女士坐在钢琴前，左侧站着一位穿西装的男士。背景有书架和台灯，墙上挂着一幅山水画。虽然照片有划痕和噪点，但人物面部特征和场景布置都能被识别出来。

5. 多文字表格识别测试

5.1 测试场景描述

我们重点测试了模型对以下复杂表格的处理能力：

截图中的Excel表格
PDF转换后的表格图片
手机拍摄的纸质表格

5.2 测试案例展示

案例1：截图中的财务报表

上传图片后使用提示词：

请提取表格中的数据并总结关键信息

模型输出：

这是一张财务报表截图，表格包含5列：项目、Q1、Q2、Q3、Q4。主要数据如下： - 总收入：Q1 125万，Q2 138万，Q3 152万，Q4 168万，呈现逐季增长趋势 - 净利润率：保持在15%-18%之间 - 最大支出项为"研发投入"，占总支出的35% 表格底部有"年度同比增长22%"的总结数据

案例2：手机拍摄的会议议程表

上传图片后使用提示词：

请整理这张表格中的会议安排

模型输出：

这是一张拍摄角度不佳的会议议程表，经过校正识别出以下内容： 上午议程： 09:00-09:30 开幕式（主持人：张总） 09:30-10:30 年度报告（汇报人：李经理） 10:30-10:45 茶歇 下午议程： 13:30-15:00 分组讨论（A组：会议室1，B组：会议室2） 15:00-16:00 总结汇报 16:00-16:30 闭幕致辞 表格最下方有"请提前10分钟到场"的备注。