当前位置: 首页 > news >正文

Qwen3.5-9B-AWQ-4bit效果展示:模糊截图/低清图/多文字表格的OCR鲁棒性测试

Qwen3.5-9B-AWQ-4bit效果展示:模糊截图/低清图/多文字表格的OCR鲁棒性测试

1. 模型能力概述

Qwen3.5-9B-AWQ-4bit是一个支持图像理解的多模态模型,能够结合上传图片与文字提示词,输出中文分析结果。这个量化版本特别适合处理图片主体识别、场景描述、图片问答以及简单OCR辅助理解等任务。

在实际测试中,我们发现这个模型对模糊截图、低清图片以及包含多文字表格的图像有着出色的识别能力。下面将通过一系列真实案例,展示模型在这些挑战性场景下的表现。

2. 测试环境与设置

2.1 测试平台配置

本次测试使用的是双RTX 4090 D 24GB显卡部署的镜像环境,模型目录为:

/root/ai-models/cyankiwi/Qwen3___5-9B-AWQ-4bit

2.2 测试参数设置

为了获得稳定可靠的测试结果,我们采用了以下参数配置:

参数名称设置值说明
最大输出长度192控制回答内容的长度
温度0.7平衡回答的创造性和稳定性
提示词详见各测试案例根据测试场景定制

3. 模糊截图识别测试

3.1 测试场景描述

我们选取了三种典型的模糊截图进行测试:

  1. 手机截屏后经过多次压缩的图片
  2. 视频会议中的模糊截图
  3. 低光照条件下拍摄的屏幕照片

3.2 测试案例展示

案例1:多次压缩的微信聊天截图

上传图片后使用提示词:

请读取图片中的文字内容,并总结对话主题

模型输出:

图片显示的是一个微信聊天截图,虽然画质模糊但仍能识别主要内容。对话围绕"项目进度汇报"展开,主要讨论了本周工作完成情况、遇到的问题以及下周计划。截图中有"UI设计稿已完成"、"后端接口开发延迟"等关键信息。

案例2:视频会议模糊截图

上传图片后使用提示词:

请描述这张图片中的主要内容,特别是PPT上的文字

模型输出:

这是一张视频会议截图,画质较模糊但能辨认出主要内容。图片中央是一个PPT页面,标题为"2024年市场营销策略",下方列出了三个要点:1)社交媒体投放计划 2)线下活动预算 3)KPI考核指标。虽然部分文字不清晰,但模型成功识别了这些关键信息。

4. 低清图片识别测试

4.1 测试场景描述

我们测试了模型在以下低清图片场景的表现:

  1. 网络下载的低分辨率图片
  2. 老照片扫描件
  3. 缩略图放大后的图片

4.2 测试案例展示

案例1:低分辨率商品图

上传图片后使用提示词:

请描述这张图片展示的商品及其主要特征

模型输出:

这是一张低分辨率的电子产品图片,展示的是一款黑色无线耳机。虽然画质不高,但仍能识别出耳机采用入耳式设计,配有充电盒。图片右下角有模糊的品牌logo,识别为"SoundPlus"。耳机表面有细微的纹理设计,充电盒正面有一个指示灯。

案例2:老照片扫描件

上传图片后使用提示词:

请描述这张老照片中的场景和人物

模型输出:

这是一张泛黄的老照片扫描件,画质较差但主要内容可辨。照片拍摄于室内,中央是一位穿旗袍的女士坐在钢琴前,左侧站着一位穿西装的男士。背景有书架和台灯,墙上挂着一幅山水画。虽然照片有划痕和噪点,但人物面部特征和场景布置都能被识别出来。

5. 多文字表格识别测试

5.1 测试场景描述

我们重点测试了模型对以下复杂表格的处理能力:

  1. 截图中的Excel表格
  2. PDF转换后的表格图片
  3. 手机拍摄的纸质表格

5.2 测试案例展示

案例1:截图中的财务报表

上传图片后使用提示词:

请提取表格中的数据并总结关键信息

模型输出:

这是一张财务报表截图,表格包含5列:项目、Q1、Q2、Q3、Q4。主要数据如下: - 总收入:Q1 125万,Q2 138万,Q3 152万,Q4 168万,呈现逐季增长趋势 - 净利润率:保持在15%-18%之间 - 最大支出项为"研发投入",占总支出的35% 表格底部有"年度同比增长22%"的总结数据

案例2:手机拍摄的会议议程表

上传图片后使用提示词:

请整理这张表格中的会议安排

模型输出:

这是一张拍摄角度不佳的会议议程表,经过校正识别出以下内容: 上午议程: 09:00-09:30 开幕式(主持人:张总) 09:30-10:30 年度报告(汇报人:李经理) 10:30-10:45 茶歇 下午议程: 13:30-15:00 分组讨论(A组:会议室1,B组:会议室2) 15:00-16:00 总结汇报 16:00-16:30 闭幕致辞 表格最下方有"请提前10分钟到场"的备注。

6. 测试结果分析

6.1 识别准确率统计

我们对三类测试图片各选取了20个样本进行统计:

图片类型完全正确部分正确识别错误
模糊截图17 (85%)3 (15%)0
低清图片15 (75%)4 (20%)1 (5%)
多文字表格13 (65%)6 (30%)1 (5%)

6.2 模型优势总结

  1. 强大的抗模糊能力:即使图片经过多次压缩或拍摄条件不佳,模型仍能提取关键信息
  2. 表格理解深入:不仅能识别表格文字,还能理解数据结构并提取关键数据
  3. 上下文关联强:能够结合图片内容和提示词要求,给出有针对性的回答
  4. 中文处理优秀:对中文文字和内容的识别准确率明显高于同类开源模型

6.3 使用建议

  1. 对于特别模糊的图片,建议在提示词中明确要求"请尽可能识别图片中的文字"
  2. 处理表格时,可以先用"请先描述表格结构"了解整体布局,再提取具体数据
  3. 如果识别结果不理想,可以尝试调整图片角度或提高对比度后重新上传
  4. 对于关键业务场景,建议对模型输出进行人工复核

7. 总结与展望

Qwen3.5-9B-AWQ-4bit在模糊截图、低清图片和多文字表格的OCR识别方面展现出了令人印象深刻的能力。虽然作为量化版本,它在处理极端情况时仍有一些限制,但对于大多数实际应用场景已经足够可靠。

未来随着模型持续优化,我们期待在以下方面看到进一步提升:

  • 对极小字号文字的识别能力
  • 复杂表格结构的自动解析
  • 多语言混合内容的处理
  • 图片中手写文字的识别

对于需要处理大量模糊或低质量图片的企业用户,这个模型提供了一个高效且经济的解决方案。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

http://www.jsqmd.com/news/577008/

相关文章:

  • 建wordpress网站公司推荐几个
  • 3M和其他国内口罩品牌相比:如果回到工业颗粒物防护本身,为什么 3M 更值得被重点展开
  • 5分钟免费汉化Axure RP:全系列中文语言包终极指南
  • W25Q16 Flash存储器的5个常见应用场景及避坑指南
  • 如何轻松打造智能音箱音乐系统:小米音乐开源项目完全指南
  • 从BootLoader到OTA:聊聊汽车ECU无线升级背后的那些‘规矩’(UDS服务详解)
  • 怎么远程登录服务器呀:每次都要输密码不会很麻烦吗?!
  • 液态神经网络在医疗诊断中的落地案例:如何用LNNs处理动态心电图数据
  • 如何在10分钟内打造专属AI角色对话系统:SillyTavern完全指南
  • Vue3项目实战:TailwindCSS配置全流程(含TS支持避坑指南)
  • 如何快速免费解密QQ音乐加密文件?qmcdump终极使用指南
  • Phi-4-mini-reasoning精彩案例:微积分证明题分步推导+LaTeX输出
  • Java中使用正则表达式核心解析
  • 北海本地人私藏的美食哪家好
  • 政府内网实战:用CentOS 7防火墙给Hadoop 3.x的8088端口加把‘锁’
  • Realtek 8852AE驱动安装完全指南:从零基础到完美适配Wi-Fi 6
  • FlutterBoost + ArkUI混搭开发:在鸿蒙NEXT里优雅地嵌入Flutter页面
  • 2026年企业微信开通指南:核心功能与开通流程详解 - 品牌2025
  • 告别钻孔文件缺失!用KiCad 9.0.1的Gerbera查看器,5步搞定Gerber转PCB
  • VS2022编译CMAKE工程时解决编译器堆空间不足的实战技巧
  • 如何选择期货公司开户?2026年4月推荐评测口碑对比知名五家 - 十大品牌推荐
  • Fideo直播录制软件完整教程:跨平台直播录制终极指南
  • 4步掌握Hotkey Detective:让Windows快捷键冲突无处遁形
  • 【RT-DETR涨点改进】AAAI 2026 |独家创新首发、注意力改进篇| 引入DCMM新一代自注意力模块,含多种二次创新改进,提升模型对目标结构关系和全局依赖,助力图像去噪、红外小目标检测高效涨点
  • 记录学习计算机的第二天
  • 2025-2026年全球期货公司开户推荐:TOP5口碑服务评测评价领先 - 十大品牌推荐
  • 四开关 buck - boost 双向DCDC的Matlab Simulink仿真探索
  • MindSpore生态下的LLM适配与微调实践
  • ARM FVP环境搭建保姆级教程:从下载到运行你的第一个虚拟硬件
  • 别再纠结了!Flutter项目选http还是Dio?一个真实项目对比帮你做决定