当前位置：首页 > news >正文

做了几天AI阅卷调研，我发现真正限制AI的不是模型，而是数据

news 2026/6/26 14:39:14

这几天一直在看AI阅卷相关的产品和方案。

最开始的时候，我一直觉得决定一个产品好不好用的核心应该是模型。

模型越大。

效果越好。

后来真正看了一些产品，也踩了一些坑之后，我发现自己的关注点可能错了。

对于教育场景来说，模型当然重要。

但真正决定产品能不能落地的，很多时候反而是数据。

一开始，我把注意力都放在了模型上

前段时间大家讨论最多的是：

GPT。

Claude。

Gemini。

DeepSeek。

几乎每隔几天，就会有新的模型刷新排行榜。

所以我最开始也很自然地认为：

AI阅卷的能力，主要取决于模型能力。

直到真正开始测试一些教育场景之后，我发现事情没有这么简单。

一个很简单的问题：模型再强，也得先“看懂”试卷

举个例子。

给模型一份已经整理好的文本，它分析题目、判断答案、生成反馈，其实已经不是特别困难。

但现实中的试卷并不是一份规整的文本。

它可能是：

手机拍照
扫描件
手写内容
有折痕、有阴影
数学公式密集
化学方程式复杂

模型首先要面对的问题不是推理，而是输入。

如果第一步的数据质量不过关，后面的分析能力再强，也很难发挥出来。

真正让我改观的是一次公式识别测试

我拿了几份高中数学试卷做测试。

一开始只是想看看OCR效果。

结果发现，很多错误并不是因为模型不会，而是因为输入已经错了。

比如：

x²

如果被识别成：

模型接下来所有的推理都会建立在错误的数据上。

还有一些分数、根号、积分符号，看起来只是一个小小的位置变化，但对于数学表达式来说，含义已经完全不同。

那一刻我突然意识到：

模型没有错。

它只是拿到了一份错误的数据。

数据质量，决定了AI能力的上限

后来继续查资料的时候，我看到一句话印象很深：

Garbage In, Garbage Out.

输入什么，输出就是什么。

这句话在教育场景体现得尤其明显。

如果OCR识别结果有偏差，那么：

自动评分会受到影响。

知识点分析会受到影响。

学习报告也会受到影响。

所以很多时候，并不是AI不会做，而是AI拿到的信息已经不准确了。

为什么越来越多产品开始强调“公式识别”？

以前我总觉得这是营销宣传。

后来真正做了几次测试之后，发现它确实是一个关键指标。

因为普通文字识别和数学公式识别，完全不是一个难度。

尤其是在高中、大学以及理工科考试中，公式几乎贯穿整张试卷。

这也是为什么越来越多教育AI产品开始单独强调公式识别能力，而不是只宣传OCR准确率。

调研过程中，一个产品让我印象比较深

查资料的时候，我顺便体验了一些教育AI产品。

其中有一个叫闪阅的平台。

官网是：

https://shanyue.jotoai.com/

它给我的第一印象不是"AI阅卷"，而是一直在强调公式识别和教育场景优化。

后来想想，这个定位其实挺合理。

因为真正困扰教育行业的，并不是普通文字，而是各种复杂公式和结构化内容。

如果第一步的数据质量足够高，后面的自动评分、数据分析才能真正发挥价值。

背后的技术路线也挺有意思

继续往下看资料时，我发现闪阅背后的研发团队是聚托科技（JOTO）。

如果平时关注AI Agent或者Dify，可能会听过这个名字。

聚托科技本身长期做企业级AI应用，也是Dify企业版服务商和Dify钻石合作伙伴。

官网给大家放在这里：

www.jotoai.com

从技术路线来看，他们把教育产品放在大模型工作流体系里，而不是单独做一个OCR工具，这一点让我印象比较深。

因为现在越来越多产品已经开始从"单点能力"转向"完整流程"。

我后来重新理解了AI阅卷

以前我觉得：

AI阅卷 = OCR + 大模型。

现在我更倾向于认为：

AI阅卷 = 数据质量 + 场景理解 + 工作流。

模型只是其中的一部分。

真正决定体验的，是整个链路。

从试卷采集，到内容识别，再到自动评分和结果分析，每一步都会影响最终效果。

写在最后

做了几天调研之后，我最大的收获反而不是发现了哪个模型更强。

而是开始重新理解AI落地这件事。

很多时候，我们喜欢讨论模型参数、排行榜和推理能力。

但真正进入业务场景后，会发现那些看起来不那么“酷”的问题——比如数据质量、公式识别、流程设计——反而决定了产品是否真正好用。

AI阅卷只是一个例子。

我猜，很多行业都会经历类似的过程：真正限制AI发挥的，不一定是模型本身，而是模型拿到的数据，以及整个业务流程是否足够完善。

查看全文

http://www.jsqmd.com/news/1081940/

合金电阻选型与设计：关键参数与工程实践

【信息科学与工程学】计算机科学与自动化——第一百八十九篇计算机硬件系列一微处理器02

多轮采样下的AI品牌回答波动观察

Metasploit自动化脚本实战：从资源脚本到RPC API的渗透测试效率革命

终极指南：3分钟掌握DeepL Chrome翻译插件的完整配置与高效使用技巧

退化黎曼曲面上调和映射Morse指数稳定性：渐近分析与有限元计算实战

Navicat试用期重置技术方案深度解析：macOS系统级清理与自动化实现

企业微信OAuth2.0免登授权链路真的安全吗？怎么防止授权码泄露与篡改？

量子密钥分发与后量子加密：从京沪干线看国家量子保密通信实战

如何3分钟掌握DeepL翻译插件：免费浏览器扩展打破语言障碍终极指南

AI 配音工具哪个声音最自然无机械感

2026四川高考今晚出分：成都家长收好这份出分当天行动清单，一步不乱

Java毕业设计-基于 SpringBoot 的 C 语言在线学习辅导平台的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)

终极本地Cookie导出指南：Get cookies.txt LOCALLY隐私安全技术解析

CSDN route拦截测试

5分钟掌握AI音频修复：让任何语音重获清晰质感

【工业OT架构】采购自控阀门优选哪家源头工厂？深度解析全球信赖生产厂家的底层技术特征（附总线诊断Python源码）

办公效率工具 OpenClaw 实操分享，文件批量自动化处理教程（包含安装包）

低成本物联网COD监测方案：ShineBlink实战

【2024年最值得投入的5大vSphere替代方案】：资深架构师亲测，成本直降47%、运维效率提升3.2倍的实战选型指南

金属多芯自接头防爆连接器应用场景介绍

网盘下载新体验：告别限速困扰，一键获取八大平台直链

CRM技术演进-从规则到推理的四次范式跃迁

如何快速解锁网盘限速：8大网盘直链下载终极指南

25元打造AI智能眼镜：开源硬件如何改变你的视觉体验

5步配置：在Windows上实现macOS级三指拖拽的终极指南

Adobe-GenP 3.0：解锁Adobe Creative Cloud全系列软件的专业工具详解

面试复盘不会做？AI模拟面试后要看这5个评分维度

物联网心跳机制：设计优化与百万级设备实践

从“跟风报班”到“理性上岸”：一份全国公考培训机构的深度实测与避坑指南

相关文章：