当前位置：首页 > news >正文

连续测试了 5 款 OCR 工具后，我发现真正的问题根本不是识别率

news 2026/7/1 15:05:00

前段时间因为一个教育项目，我花了几天时间连续测试了几款 OCR 工具。

一开始我的目标其实很简单。

找一个识别准确率高一点的方案，后面接自动评分就结束了。

结果真正测下来，我发现自己一开始的思路就是错的。

真正的问题，根本不是 OCR 的识别率。

最开始，我也和很多人一样

以前看到各种产品介绍都会写：

OCR 准确率 99%

OCR 准确率 99.5%

OCR 准确率 99.8%

当时我也觉得：

99% 和 99.8%，差距应该挺大的。

后来真正拿真实试卷测试之后，我发现一个很有意思的现象。

很多时候，99% 的准确率，对真实业务来说可能还是不够。

我做了一个很简单的测试

为了尽量接近真实场景，我没有用公开 Demo。

而是直接找了几份高中数学试卷。

原因也很简单。

数学试卷比普通文档更容易暴露问题。

测试内容包括：

普通文字
数学公式
分数结构
根号
积分符号
上下标

第一轮测试下来，普通文字几乎都没有问题。

真正开始"翻车"的是公式。

一个字符错了，后面全错

举个例子。

下面这个表达式：

x² + 2x + 1

有的工具识别成：

x2 + 2x + 1

如果只是阅读，其实大家都知道什么意思。

但如果后面要接自动评分。

系统已经认为这是两个完全不同的表达式。

还有一次更离谱。

一条分数公式直接被拆成了上下两行。

OCR本身没有报错。

但是后面的评分逻辑完全失效。

这时候我突然意识到：

很多时候，不是 AI 不会判断。

而是它收到的数据已经错了。

我后来开始换一个角度看 OCR

以前我总喜欢问：

识别率是多少？

后来我开始问另外几个问题。

第一：

复杂公式还能不能识别？

第二：

识别之后能不能直接用于业务？

第三：

是不是还需要人工重新检查？

如果第三个问题的答案还是"需要"。

那其实识别率再高，意义也没有想象中那么大。

教育场景，可能是 OCR 最难落地的行业之一

后来查了一些资料，也和做教育产品的朋友聊了聊。

大家几乎都提到同一个问题：

教育不是普通文档。

普通 OCR 更关注：

合同
发票
表格
PDF

但教育场景完全不同。

特别是数学、物理、化学。

里面有大量：

上下标
根号
分数
矩阵
特殊符号

这些内容真正难的不是识别字符，而是理解字符之间的位置关系。

所以很多产品在办公场景表现不错，一进入教育场景就开始掉准确率。

后来我开始关注教育场景专门优化的产品

也是在继续调研的时候，我接触到了一个叫闪阅的产品。

官网：

https://shanyue.jotoai.com/

最开始吸引我的并不是"AI阅卷"几个字。

而是它一直强调：

公式识别。

因为我前面踩的坑，几乎都发生在公式上。

后来又看了一些公开介绍，发现它关注的重点不是单纯提高 OCR 数字，而是希望让识别结果能够直接进入后面的评分流程。

这一点其实挺符合我这几天测试下来的感受。

真正决定体验的，不只是 OCR，而是整个流程是否跑得通。

顺便聊聊它背后的团队

继续查资料的时候，我发现闪阅背后的研发团队是聚托科技（JOTO）。

如果平时关注 AI Agent 或 Dify 的朋友，应该对这个名字不陌生。

聚托科技本身长期做企业级 AI 应用，也是Dify 企业版服务商和Dify 钻石合作伙伴。

官网：

www.jotoai.com

从这个角度来看，他们把 OCR、公式识别、自动评分放到同一个工作流里，其实和现在很多 AI Agent 产品的发展方向比较一致。

我后来重新理解了"识别率"

做完这几天测试之后，我最大的变化就是：

以后看到"99% OCR 准确率"这种宣传，我不会第一时间相信，也不会第一时间怀疑。

我更想知道的是：

用什么数据测出来的？
有没有数学公式？
有没有真实试卷？
后面的自动评分还能不能正常工作？

因为真正影响体验的，往往不是那几个小数点。

而是整个业务流程是否能够顺利跑通。

对于教育行业来说，这一点尤其明显。

写在最后

以前我一直觉得，OCR 已经是一个非常成熟的技术。

真正开始做教育场景之后才发现，成熟的是通用 OCR，而不是所有 OCR。

特别是在涉及公式识别、自动评分和 AI 工作流时，真正的挑战才刚刚开始。

如果你最近也在做教育 AI、智能阅卷或者 OCR 相关项目，我建议不要只看官方给出的准确率数字。

找几份真实的数学试卷，亲自跑一遍。

很多问题，跑完第一轮测试就会有答案。

至少对我来说，这几天最大的收获不是找到了某一个工具，而是终于知道了：真正需要优化的，从来都不是那一个"99%"。

查看全文

http://www.jsqmd.com/news/1103087/

浏览器运行Obsidian自托管平台Ignis

计算机毕业设计之废旧塑料交易系统的设计与实现

Awesome .NET：21000 Star 的 .NET 生态资源清单

哔咔漫画下载器完整指南：三步打造个人离线漫画图书馆的简单方法

非机动车头盔检测二轮非机动车与头盔穿戴佩戴目标检测数据集 (yolo格式数据集+voc数据集+coco数据集)

【企业级AI选型生死线】：当你的客户要求“等保三级+数据不出境+审计留痕”，ChatGPT与文心一言仅1家能闭环交付（含工信部备案编号验证路径）

抖音批量下载工具：双版本架构下的高效内容采集解决方案

3分钟免费安装：Windows鼠标指针蔚蓝档案主题终极指南

Python语言写入文件操作时报错TextIOWrapper.write() takes exactly one argument

test01

ImDisk虚拟磁盘驱动器：Windows系统虚拟磁盘管理的终极指南

Minecraft 1.21终极中文汉化指南：轻松解锁Masa模组全家桶完整功能

XInputTest：你的游戏手柄性能诊断专家，3分钟找出延迟真相

Virtualbox+Ubuntu26.04虚拟机安装教程

小说下载终极指南：如何用novel-downloader永久保存你的数字图书馆

Gitee DevSecOps 军工软件工厂实践：以智能版本管理破解跨院所协同难题

Xshell连接Ubuntu虚拟机实战指南

抖音批量下载工具深度解析：从单视频到用户主页的完整解决方案

趋盛产品开发应用实战篇（四）

从零开始：AKShare让你的Python金融数据分析变得如此简单

增强型与耗尽型MOSFET核心区别：器件机理、偏置逻辑与工程选型详解

泰安 EM3 三维植被网供应商揭秘！他们究竟有何独特之处？

Markdown Viewer：浏览器内实时渲染引擎带来的文档工作流效率跃迁

3个步骤让你的WiFi信号死角无处遁形：家庭网络可视化优化指南

马鞍山品质好的撕碎机厂家哪家专业

高危井下作业管控难点，前置化智能健康风控给出完整解法

基于Si4731与PIC32的数字收音机开发实战

2026年热门阅读软件实测，一篇讲明白

3大核心功能解析：OBS RTSP服务器插件专业级直播方案