当前位置: 首页 > news >正文

香港中文大学研究团队造出了一台全自动考卷生成机器

这项由香港中文大学多媒体实验室(MMLab)联合香港创新科技署CPII、香港中文大学(深圳)、深圳Loop区域研究院、山东大学及华为技术有限公司共同完成的研究,以预印本形式于2026年6月4日发布在arXiv平台,编号为arXiv:2606.06462。感兴趣的读者可以通过这个编号查阅完整原文。

考试题是怎么来的?多数人的第一反应是:老师出的呗。老师要查资料、筛题目、设计选项、核对答案,有时候出一套高质量的题目要花上好几天时间。现在,当AI系统越来越聪明,我们迫切需要一种方法来持续测试它们——但出题的人力成本本身也是个大麻烦。更尴尬的是,一套题目发布之后,没多久AI就能考出接近满分的成绩,题目基本上就"失效"了,只能重新出题,形成了一个费力不讨好的死循环。

正是为了打破这个循环,香港中文大学的研究团队提出了一个大胆的方案:让AI来给AI出题。他们将这套系统命名为"Benchmark Agent(基准测试智能体)",这是目前为止第一个完全自主运行的评测题目构建系统。用一句话来描述它的本领:只要你告诉它"我想测试AI在某方面的能力",它就能自动帮你设计题目类型、找来合适的数据、生成试题、检查答案质量,最终交出一套完整的考卷,全程几乎不需要人类插手。

这套系统能出的题远不止文字题。它支持纯文本、图文结合、语音对话、甚至同时包含图像和声音的综合题目,覆盖了数学推理、医学影像分析、艺术鉴赏、代码调试、多语言理解等十几个不同领域。研究团队用这套系统实际生产了15套代表性评测集,并做了大量实验验证它的质量——结果相当可观。

---

一、为什么现在给AI出题这么难

要理解这项研究的价值,先得理解"给AI出题"这件事有多费劲,又有多容易过时。

在过去几年里,研究人员花了巨大精力手工构建各种评测集,用来衡量AI的语言理解、数学能力、视觉感知等各方面本领。这类工作通常需要一群领域专家先讨论出题范围,再找来大量原始数据,逐条筛选、标注、核对,整个流程可能历时数月,耗费数十万元经费。而且每次有了新的评测需求,之前的努力几乎无法复用,基本上要从头再来。

更令人沮丧的是"饱和"问题。研究团队整理了一张图表,追踪了Qwen系列(一个开源AI模型家族)在过去几年里在各大主流题库上的成绩变化。结果看起来像一组正在融化的冰淇淋——在MMLU、GSM8K、MATH等知名评测集上,这些模型的得分在短短两三年内就从60分出头冲到了80分甚至90分以上。也就是说,好不容易出一套题,没多久就被AI"摸透"了,区分不出优劣,只能再出一套新的。题目的"保质期"越来越短。

这就是Benchmark Agent要解决的核心矛盾:人工出题太慢太贵,而AI进步又太快。与其让人追着AI跑,不如让AI替人出题,随时更新,永不饱和。

---

二、这台"出题机器"内部长什么样

Benchmark Agent的整体设计灵感来自人类大脑中"大脑皮层负责战略决策、小脑负责精确执行"的分工模式。整个系统被分成两个紧密配合的部分,一个负责"想清楚出什么题",另一个负责"真正把题出出来"。

负责战略决策的部分叫做"Benchmark Planner(规划器)"。当用户输入一个需求——比如"我想测试AI能不能理解混合多种语言的语音对话"——规划器会把这个模糊的想法拆解成一组具体的、可执行的子任务。拆解这件事本身就不简单,因为用户说的话往往很笼统,需要把它翻译成"我们要出哪几类题、每类考什么、用什么数据来支撑"这样清晰的规格。

规划器内部有三个专门负责不同工作的小模块,就像一个分工明确的编辑团队。第一个叫"设计智能体",它的工作是拿到用户需求之后,先头脑风暴出一批候选题目类型,然后不断筛选、修改、淘汰,直到留下一组真正有价值、不重叠、覆盖面好的题型。第二个叫"落地智能体",它的工作是确认每一类题型都能找到真实的数据来支撑,同时规划出把原始数据变成试题的具体方案。第三个叫"分配智能体",负责在资源和数量限制下,合理安排每类题出多少道。

三个小模块之间会相互检查。如果某类题找不到合适的数据,设计智能体就得回去重新设计;如果数量安排不合理,分配智能体会反复调整,直到达到一个可行的方案。整个过程像一个内部审稿会,不断循环打磨,直到通过才往下走。

负责精确执行的部分叫做"Benchmark Executor(执行器)"。它拿到规划器给出的详细方案之后,开始逐条生成具体题目。执行器配备了一套工具箱,包括文字转语音、图像缩放、音频混合、网页搜索、噪声注入、文件格式转换、元数据编辑等十几种工具,既有调用AI模型完成的智能操作,也有纯程序化的确定性操作。

生成题目的过程是"边做边看"的。执行器先根据整体方案规划每一道题的生成步骤,然后实际执行这些步骤,把中间产出反馈回来,再根据反馈调整下一步操作。每道题生成之后,还要经过一道质量检验关——检查题目是否真的考到了目标能力,格式是否规范,答案是否正确。不合格的题目会被丢弃或重新生成,直到凑够预定数量。

用一个生活中的比喻来理解:如果把整个系统比作一家餐厅,规划器就是大厨长,负责制定菜单、确认食材来源、规划出餐数量;执行器就是具体的厨师团队,按照食谱实际烹饪,烤出来的每道菜还要经过品控员尝一口才能上桌。两者缺一不可,配合才能出好菜。

---

三、"出题机器"能出哪些题

研究团队用Benchmark Agent实际生成了15套涵盖不同场景的评测集,覆盖范围令人印象深刻。

在纯文字方向,系统生成了四套题库,分别测试"多视角叙事理解"(把同一件事情的不同描述整合起来,判断真正发生了什么)、"多语言推理"(信息散落在英语、中文、法语等不同语言的文本中,要求模型跨语言整合得出答案)、"长对话推理"(在多个说话人的长篇对话中追踪信息,回答综合性问题)、以及"数学证明步骤验证"(给出一段逐步展开的数学证明,要求模型找出其中哪一步逻辑有误)。

在语音理解方向,系统生成了三套题库,包括"多说话人语音推理"、"混合语言语音理解"和"噪声环境下的语音理解"。特别是后者,题目中的音频带有真实的背景噪声,考验AI在嘈杂环境中是否还能准确理解说话人的意图。

在图文结合方向,系统生成了七套题库,涵盖艺术作品鉴赏(从画面风格判断所属历史时期)、医学影像诊断(结合MRI图像和临床描述给出鉴别诊断)、动物细粒度识别(区分外形相似的不同犬种或鸟种)、地理区域推理、图中数学证明步骤查错、代码缺陷定位与修复,以及更难的艺术史推理(从画面推断画家、时代和相关艺术知识)。

还有一套跨越图像和语音的综合题库,要求模型同时处理视觉内容和对话音频,回答需要两种信息共同支撑才能得出的问题,比起单独处理图片或声音难度大幅提升。

---

四、题目质量怎么验证

出题不难,出好题才难。研究团队为了验证这套系统的质量,设计了三种互补的评估方式。

第一种是人工评估。研究人员请人类专家对生成的题目逐条评分,判断题目是否清晰、是否可以回答、答案是否正确、是否真的考到了目标能力。结果表明,在五套代表性题库中,人工接受率均在96%到98%之间——也就是说,100道题里大约只有2到4道会被专家认为有问题。

第二种是"AI当裁判"评估。研究团队设计了一套详细的评分标准,让另一个AI来充当考官,从六个维度给题目打分。这六个维度分别是:整套题库是否契合用户的原始意图、每道题的格式是否规范、题目和答案之间是否语义连贯、题目背景材料是否能支撑作答、题目是否真的需要目标能力才能解答(不能走捷径)、以及题目的难度是否有足够挑战性。这种多维度打分让评估结果更细致,也能看出系统在哪方面还有改进空间。结果显示,格式规范和语义连贯这两项得分很稳定,而"题目到底有多难"和"能不能走捷径绕过目标考查点"这两项得分相对偏低,说明让AI出出"真正难的好题"仍然有提升空间。

第三种是"鉴别力检验"。评估题库最终的目的是区分模型好坏,所以研究团队直接让不同大小的Qwen3.5系列模型(参数量分别为2B、4B、9B、27B,可以理解为从"小学生"到"博士生"的不同级别)去做这些题,看看成绩是否随着模型变大而有规律地提升。结果令人满意:在多视角推理题库上,成绩从71分稳步爬升到87分;在艺术推理和数学推理题库上,成绩虽然整体偏低(45分到56分),但也呈现出清晰的梯度。这说明这些题目确实能区分出强弱,没有出现"大家都满分"或"大家都不会"的极端情况。

---

五、和直接让AI出题相比,差别有多大

有人可能会问:何必搞这么复杂的系统,直接让ChatGPT或者其他大模型出题不就行了?研究团队对此做了直接的对比实验。

他们用相同的题目需求,分别让GPT-5.4、Claude-Sonnet-4-6、Gemini-3.1-Pro-Preview和Qwen3.5-397B这几个当前最强的AI模型直接生成题目,再用同一套标准评分。结果显示,直接让AI出题,在格式规范和语义连贯这两项确实也能得到还不错的分数,说明这些模型确实能写出"看起来像题目"的东西。但在"是否符合用户原始意图"、"是否真的考查了目标能力"、"题目难度是否足够"这几项关键指标上,直接生成的分数大幅落后于Benchmark Agent——差距通常在15到30分之间,相当显著。

这个差异背后的原因并不神秘:直接让AI出题,模型只是在凭感觉发挥,没有经历"需求分析—数据核实—方案验证—质量把关"这一套严格流程。就像让一个厨师随手炒一盘菜,和按照餐厅标准化流程烹制的出品,质量差异自然可观。Benchmark Agent的价值不在于它的每个步骤单独多聪明,而在于整套流程确保了题目从头到尾都贴近用户真实需求,而不是跑偏到相关但不准确的方向上。

---

六、换个AI来驱动这套系统,结果会变吗

研究团队还测试了用不同的AI模型作为Benchmark Agent的"大脑"时,生成质量是否会有明显变化。他们分别用Qwen3.5-397B-A17B、GPT-5.4、Claude-Sonnet-4-6和Gemini-3.1-Pro-Preview驱动同一套系统,结果发现:不同模型驱动下,最终题库的综合质量得分维持在一个相当稳定的范围内(比如在"多视角理解"这套题库上,四种配置的综合分在72到80分之间,差距不大)。换句话说,这套系统的质量主要来自整体流程设计,而不是依赖某个特定AI模型的超强能力。闭源商业模型在需要深层意图理解和多步规划的维度上略有优势,但差距并不悬殊。

---

七、这套系统省了多少人力

研究团队对人工出题和Benchmark Agent出题的时间成本做了直接比较。在"语音推理"类题库上,人工平均每道题需要6分钟,而Benchmark Agent只需要0.3分钟;在"艺术推理"类题库上,人工平均每道题需要5分钟,Benchmark Agent只需要0.2分钟。换算下来,速度提升了大约20到30倍。更重要的是,一旦系统部署完毕,需要更新题库时可以同时并行处理多批任务,速度还能进一步加快,而人工出题的速度不会因为需求增加而自动扩容。

---

八、实验揭示了当前AI模型的哪些短板

Benchmark Agent不只是一台出题机器,它生成的题库还帮助研究人员发现了一些关于当前AI系统的有趣规律。

研究团队用Benchmark Agent生成的图文题库对多个主流视觉-语言模型做了系统评测,结果呈现出明显的"能力不均衡"现象。以Qwen系列视觉模型为例,它们在地理区域识别和数学推理这两类任务上表现相当优秀,但在艺术品细节鉴赏和动物细粒度识别上明显吃力。这种差距可能源于训练数据的覆盖范围——模型对常见知识的掌握远优于需要专业细粒度感知的领域。

从具体的失败案例来看,这种差距体现得更加直观。有一道题给出了一幅使用饱和青绿色调的中国画,问它属于哪个历史时期,正确答案是"近现代对古典山水画的复兴",但模型把它判断为"晚期传统文人画时期",因为它只看到了"传统风格",没能识别出"用传统形式做现代复兴"这一层更细腻的区别。还有一道医学题,给出了一张脑部MRI图像和患者症状,要求判断栓子最可能来自哪条动脉,正确答案是"远端基底动脉",但模型选了"近端基底动脉",原因是它过分关注了脑干受累这个笼统特征,忽略了"进行性嗜睡"这个提示远端"基底动脉顶端综合征"的关键线索。

在语音理解方向,一道题考查说话人归因,对话中律师明确说"这不是典型的诉讼",但模型把这句话错误地归属到了当事人Ana身上。另一道题考查代词指代,对话中Speaker 2说"That is so sweet","That"指的是Speaker 1刚才表达的"我为我们关系能持续这么久感到兴奋",但模型把它误解成了更早时候提到的"我们曾经形影不离的时光",显示出模型在维持本地对话上下文、追踪近期话语指向方面存在明显不足。

---

九、这套系统还有哪些局限

研究团队对自己的系统相当坦诚,在论文中明确列出了三个主要局限。

首先,当前生成的题库主要覆盖了若干代表性任务,专业细分领域的覆盖还不够广。未来需要进一步扩充可以接入的数据集池,以支持更多用户定制场景。其次,系统能完成的操作受到工具箱中现有工具的限制,目前支持的变换类型有限,无法满足所有可能的题目构建需求。好消息是这套系统采用模块化设计,新工具可以随时接入,扩展起来并不困难。第三,虽然系统显著降低了人工成本,但少量人工抽查仍然是有价值的,因为完全自动化的质量控制还无法覆盖所有边角情况。研究团队计划加入更便捷的人机交互反馈机制,让专家能以极低成本对生成结果做快速修正。

---

说到底,这项研究的意义不只是"出题速度快了20倍"。更深层的价值在于它改变了评测题库的生命周期逻辑。以前,一套题库从诞生到被AI"考穿",就算完成使命,研究人员再从头出新题。现在,有了Benchmark Agent,题库可以随着AI能力的演进而持续更新,用户可以根据自己的评测需求随时定制新的题目类型,整个评测体系从一次性消耗品变成了可持续运转的动态系统。

当然,"让AI给AI出题"这件事本身也带来了新的问题:如果出题的AI和被测试的AI来自同一个模型家族,会不会有"自己给自己出简单题"的风险?如何确保题目不会因为训练数据泄露而失去评测效力?这些问题在论文中尚未深入讨论,但无疑是接下来研究者需要认真面对的方向。

对于关心AI发展的普通读者来说,这项研究意味着:未来AI能力的评测将会更加持续、更加多样化、也更加贴近真实使用场景,而不再局限于那几套大家耳熟能详、已经快被"刷满分"的老题库。评测本身也在进化,而这恰恰是AI能良性进步的重要前提。如有兴趣深入研究这套系统的技术细节,可通过arXiv编号2606.06462查阅完整论文。

---

Q&A

Q1:Benchmark Agent能自动生成哪些类型的评测题目?

A:Benchmark Agent支持生成多种模态的评测题目,包括纯文本题(如多语言推理、长对话理解、数学证明查错)、图文结合题(如医学影像诊断、艺术鉴赏、代码调试)、纯语音题(如多说话人理解、噪声环境对话),以及同时涉及图像和语音的综合题目。目前研究团队已用这套系统生成了15套覆盖不同领域的评测集。

Q2:Benchmark Agent生成的题目质量怎么保证,人工审核还需要吗?

A:系统内置了自动质量控制流程,每道生成的题目都会经过格式检验和语义验证,不合格的会被丢弃或重新生成。人工专家评估结果显示,生成题目的人工接受率在96%到98%之间,质量相当可靠。不过研究团队也坦承,少量人工抽查仍然有价值,系统并不能完全取代人工判断,特别是在一些边界情况下。

Q3:Benchmark Agent和直接让ChatGPT等大模型出题有什么本质区别?

A:直接让大模型出题可以生成格式规范、语义通顺的题目,但很难保证题目真正契合用户的测试意图,也难以确保题目不能被走捷径绕过。Benchmark Agent的核心优势在于它有完整的"需求分析—数据落地验证—方案规划—质量把关"流程,确保每道题从头到尾都贴近原始评测目标。实验对比显示,在"是否符合用户意图"和"是否考查了目标能力"这两项关键指标上,Benchmark Agent比直接生成的方式高出15到30分。

http://www.jsqmd.com/news/996230/

相关文章:

  • 5分钟掌握BibiGPT:AI音视频智能总结的完整解决方案
  • MatAnyone:AI视频抠像革命,让普通人也能实现专业级人物分离
  • WPF+Prism模块化开发实操工程:含Shell主窗、多模块按需加载与区域导航
  • 从4CLK到8CLK:手把手拆解大尺寸液晶面板GOA电路设计中的时钟信号‘接力赛’
  • 别再只记结论了!用5行代码可视化model.eval()和torch.no_grad()对Dropout/BatchNorm的实际影响
  • 视频压缩感知与Codec-aware Tokenization技术解析
  • 2026年鱼缸过滤设备品牌对比:从过滤原理到靠谱选型清单 - 广州矩阵架构科技公司
  • 3分钟搭建个人HTTP文件服务器:chfsgui图形化界面终极指南
  • Harness 教程 01:平台介绍与环境搭建(国内网络环境落地版)
  • 3分钟搞定漫画翻译的终极AI工具:BallonTranslator完全指南
  • ObservableCollection的坑我帮你踩完了:从事件触发原理到Blazor/MAUI跨平台实战避坑指南
  • 从实验室到设计台:如何将AlGaN/GaN HEMT的2DEG解析模型集成进你的EDA工具链
  • YimMenu完整指南:GTA5终极辅助工具的安全使用教程
  • CVPR 2026:无需训练,让 Rectified Flow 生成模型推理加速 2 到 3 倍
  • 从“隔直通交”到波形转换:一个电容如何让运放变身积分器?保姆级电路分析避坑指南
  • 企业级工作流系统架构设计:基于Flowable的智能审批解决方案
  • 2026年常州防排烟不锈钢风管怎么选?3家源头工厂实测对比与选购指南 - 优质品牌商家
  • EasyExcel注解避坑指南:@ExcelProperty顺序错乱、@ContentLoopMerge失效?看这篇就够了
  • RAGFlow v0.26.0发布:模型自动发现、多密钥管理、7大企业连接器、GraphRAG断点续跑、推理流更快更透明,超全升级解读
  • 从代码重构到系统设计:如何用‘矛盾分析法’搞定复杂业务逻辑?
  • 东北大学新研究:我们如何避开AI让隐私和数据价值都不受损?
  • 【STM32】 电解电容选型与电路稳定性实战指南
  • 调参避坑指南:OpenCV霍夫直线检测HoughLinesP的threshold、minLineLength到底怎么设?
  • 水表、燃气表维护福音:实测80K固件差分包仅3K的OTA升级方案选型指南
  • 2026年雷蒙磨粉机企业实力对比:从技术、服务到工程案例的深度分析 - 优质品牌商家
  • 2026年送餐车采购指南:从载重到续航,如何选对电动四轮送餐车与牵引平板车? - 优质品牌商家
  • 从游戏开发到信号处理:三角函数和差公式在实际项目中到底怎么用?(附C++/Python代码片段)
  • 从‘数1’实验看LC-3机器码的编程思想:循环、移位与条件跳转的底层实现
  • 别再只跑S参数了!用ADS搞定USB3.0眼图仿真,从模型获取到结果判读保姆级指南
  • Delphi文件操作避坑指南:用SHFileOperation函数搞定复制、移动、删除和重命名