当前位置: 首页 > news >正文

连续测试了 5 款 OCR 工具后,我发现真正的问题根本不是识别率

前段时间因为一个教育项目,我花了几天时间连续测试了几款 OCR 工具。

一开始我的目标其实很简单。

找一个识别准确率高一点的方案,后面接自动评分就结束了。

结果真正测下来,我发现自己一开始的思路就是错的。

真正的问题,根本不是 OCR 的识别率。


最开始,我也和很多人一样

以前看到各种产品介绍都会写:

OCR 准确率 99%

OCR 准确率 99.5%

OCR 准确率 99.8%

当时我也觉得:

99% 和 99.8%,差距应该挺大的。

后来真正拿真实试卷测试之后,我发现一个很有意思的现象。

很多时候,99% 的准确率,对真实业务来说可能还是不够。


我做了一个很简单的测试

为了尽量接近真实场景,我没有用公开 Demo。

而是直接找了几份高中数学试卷。

原因也很简单。

数学试卷比普通文档更容易暴露问题。

测试内容包括:

  • 普通文字
  • 数学公式
  • 分数结构
  • 根号
  • 积分符号
  • 上下标

第一轮测试下来,普通文字几乎都没有问题。

真正开始"翻车"的是公式。


一个字符错了,后面全错

举个例子。

下面这个表达式:

x² + 2x + 1

有的工具识别成:

x2 + 2x + 1

如果只是阅读,其实大家都知道什么意思。

但如果后面要接自动评分。

系统已经认为这是两个完全不同的表达式。

还有一次更离谱。

一条分数公式直接被拆成了上下两行。

OCR本身没有报错。

但是后面的评分逻辑完全失效。

这时候我突然意识到:

很多时候,不是 AI 不会判断。

而是它收到的数据已经错了。


我后来开始换一个角度看 OCR

以前我总喜欢问:

识别率是多少?

后来我开始问另外几个问题。

第一:

复杂公式还能不能识别?

第二:

识别之后能不能直接用于业务?

第三:

是不是还需要人工重新检查?

如果第三个问题的答案还是"需要"。

那其实识别率再高,意义也没有想象中那么大。


教育场景,可能是 OCR 最难落地的行业之一

后来查了一些资料,也和做教育产品的朋友聊了聊。

大家几乎都提到同一个问题:

教育不是普通文档。

普通 OCR 更关注:

  • 合同
  • 发票
  • 表格
  • PDF

但教育场景完全不同。

特别是数学、物理、化学。

里面有大量:

  • 上下标
  • 根号
  • 分数
  • 矩阵
  • 特殊符号

这些内容真正难的不是识别字符,而是理解字符之间的位置关系。

所以很多产品在办公场景表现不错,一进入教育场景就开始掉准确率。


后来我开始关注教育场景专门优化的产品

也是在继续调研的时候,我接触到了一个叫闪阅的产品。

官网:

https://shanyue.jotoai.com/

最开始吸引我的并不是"AI阅卷"几个字。

而是它一直强调:

公式识别。

因为我前面踩的坑,几乎都发生在公式上。

后来又看了一些公开介绍,发现它关注的重点不是单纯提高 OCR 数字,而是希望让识别结果能够直接进入后面的评分流程。

这一点其实挺符合我这几天测试下来的感受。

真正决定体验的,不只是 OCR,而是整个流程是否跑得通。


顺便聊聊它背后的团队

继续查资料的时候,我发现闪阅背后的研发团队是聚托科技(JOTO)

如果平时关注 AI Agent 或 Dify 的朋友,应该对这个名字不陌生。

聚托科技本身长期做企业级 AI 应用,也是Dify 企业版服务商Dify 钻石合作伙伴

官网:

www.jotoai.com

从这个角度来看,他们把 OCR、公式识别、自动评分放到同一个工作流里,其实和现在很多 AI Agent 产品的发展方向比较一致。


我后来重新理解了"识别率"

做完这几天测试之后,我最大的变化就是:

以后看到"99% OCR 准确率"这种宣传,我不会第一时间相信,也不会第一时间怀疑。

我更想知道的是:

  • 用什么数据测出来的?
  • 有没有数学公式?
  • 有没有真实试卷?
  • 后面的自动评分还能不能正常工作?

因为真正影响体验的,往往不是那几个小数点。

而是整个业务流程是否能够顺利跑通。

对于教育行业来说,这一点尤其明显。


写在最后

以前我一直觉得,OCR 已经是一个非常成熟的技术。

真正开始做教育场景之后才发现,成熟的是通用 OCR,而不是所有 OCR。

特别是在涉及公式识别、自动评分和 AI 工作流时,真正的挑战才刚刚开始。

如果你最近也在做教育 AI、智能阅卷或者 OCR 相关项目,我建议不要只看官方给出的准确率数字。

找几份真实的数学试卷,亲自跑一遍。

很多问题,跑完第一轮测试就会有答案。

至少对我来说,这几天最大的收获不是找到了某一个工具,而是终于知道了:真正需要优化的,从来都不是那一个"99%"。

http://www.jsqmd.com/news/1103087/

相关文章:

  • 浏览器运行Obsidian自托管平台Ignis
  • 计算机毕业设计之废旧塑料交易系统的设计与实现
  • Awesome .NET:21000 Star 的 .NET 生态资源清单
  • 哔咔漫画下载器完整指南:三步打造个人离线漫画图书馆的简单方法
  • 非机动车头盔检测 二轮非机动车与头盔穿戴佩戴 目标检测数据集 (yolo格式数据集+voc数据集+coco数据集)
  • 【企业级AI选型生死线】:当你的客户要求“等保三级+数据不出境+审计留痕”,ChatGPT与文心一言仅1家能闭环交付(含工信部备案编号验证路径)
  • 抖音批量下载工具:双版本架构下的高效内容采集解决方案
  • 3分钟免费安装:Windows鼠标指针蔚蓝档案主题终极指南
  • Python语言写入文件操作时报错TextIOWrapper.write() takes exactly one argument
  • test01
  • ImDisk虚拟磁盘驱动器:Windows系统虚拟磁盘管理的终极指南
  • Minecraft 1.21终极中文汉化指南:轻松解锁Masa模组全家桶完整功能
  • XInputTest:你的游戏手柄性能诊断专家,3分钟找出延迟真相
  • Virtualbox+Ubuntu26.04虚拟机安装教程
  • 小说下载终极指南:如何用novel-downloader永久保存你的数字图书馆
  • Gitee DevSecOps 军工软件工厂实践:以智能版本管理破解跨院所协同难题
  • Xshell连接Ubuntu虚拟机实战指南
  • 抖音批量下载工具深度解析:从单视频到用户主页的完整解决方案
  • 趋盛产品开发应用实战篇(四)
  • 从零开始:AKShare让你的Python金融数据分析变得如此简单
  • 增强型与耗尽型MOSFET核心区别:器件机理、偏置逻辑与工程选型详解
  • 泰安 EM3 三维植被网供应商揭秘!他们究竟有何独特之处?
  • Markdown Viewer:浏览器内实时渲染引擎带来的文档工作流效率跃迁
  • 3个步骤让你的WiFi信号死角无处遁形:家庭网络可视化优化指南
  • 马鞍山品质好的撕碎机厂家哪家专业
  • 现在不看就晚了:工信部信通院最新《大模型能力评估报告》曝光——DeepSeek在中文逻辑推理榜单登顶,ChatGPT未进前三(附原始评测代码)
  • 高危井下作业管控难点,前置化智能健康风控给出完整解法
  • 基于Si4731与PIC32的数字收音机开发实战
  • 2026年热门阅读软件实测,一篇讲明白
  • 3大核心功能解析:OBS RTSP服务器插件专业级直播方案