当前位置：首页 > news >正文

香港中文大学研究团队造出了一台全自动考卷生成机器

news 2026/6/12 3:27:10

这项由香港中文大学多媒体实验室（MMLab）联合香港创新科技署CPII、香港中文大学（深圳）、深圳Loop区域研究院、山东大学及华为技术有限公司共同完成的研究，以预印本形式于2026年6月4日发布在arXiv平台，编号为arXiv:2606.06462。感兴趣的读者可以通过这个编号查阅完整原文。

考试题是怎么来的？多数人的第一反应是：老师出的呗。老师要查资料、筛题目、设计选项、核对答案，有时候出一套高质量的题目要花上好几天时间。现在，当AI系统越来越聪明，我们迫切需要一种方法来持续测试它们——但出题的人力成本本身也是个大麻烦。更尴尬的是，一套题目发布之后，没多久AI就能考出接近满分的成绩，题目基本上就"失效"了，只能重新出题，形成了一个费力不讨好的死循环。

正是为了打破这个循环，香港中文大学的研究团队提出了一个大胆的方案：让AI来给AI出题。他们将这套系统命名为"Benchmark Agent（基准测试智能体）"，这是目前为止第一个完全自主运行的评测题目构建系统。用一句话来描述它的本领：只要你告诉它"我想测试AI在某方面的能力"，它就能自动帮你设计题目类型、找来合适的数据、生成试题、检查答案质量，最终交出一套完整的考卷，全程几乎不需要人类插手。

这套系统能出的题远不止文字题。它支持纯文本、图文结合、语音对话、甚至同时包含图像和声音的综合题目，覆盖了数学推理、医学影像分析、艺术鉴赏、代码调试、多语言理解等十几个不同领域。研究团队用这套系统实际生产了15套代表性评测集，并做了大量实验验证它的质量——结果相当可观。

---

一、为什么现在给AI出题这么难

要理解这项研究的价值，先得理解"给AI出题"这件事有多费劲，又有多容易过时。

在过去几年里，研究人员花了巨大精力手工构建各种评测集，用来衡量AI的语言理解、数学能力、视觉感知等各方面本领。这类工作通常需要一群领域专家先讨论出题范围，再找来大量原始数据，逐条筛选、标注、核对，整个流程可能历时数月，耗费数十万元经费。而且每次有了新的评测需求，之前的努力几乎无法复用，基本上要从头再来。

更令人沮丧的是"饱和"问题。研究团队整理了一张图表，追踪了Qwen系列（一个开源AI模型家族）在过去几年里在各大主流题库上的成绩变化。结果看起来像一组正在融化的冰淇淋——在MMLU、GSM8K、MATH等知名评测集上，这些模型的得分在短短两三年内就从60分出头冲到了80分甚至90分以上。也就是说，好不容易出一套题，没多久就被AI"摸透"了，区分不出优劣，只能再出一套新的。题目的"保质期"越来越短。

这就是Benchmark Agent要解决的核心矛盾：人工出题太慢太贵，而AI进步又太快。与其让人追着AI跑，不如让AI替人出题，随时更新，永不饱和。

---

二、这台"出题机器"内部长什么样

Benchmark Agent的整体设计灵感来自人类大脑中"大脑皮层负责战略决策、小脑负责精确执行"的分工模式。整个系统被分成两个紧密配合的部分，一个负责"想清楚出什么题"，另一个负责"真正把题出出来"。

负责战略决策的部分叫做"Benchmark Planner（规划器）"。当用户输入一个需求——比如"我想测试AI能不能理解混合多种语言的语音对话"——规划器会把这个模糊的想法拆解成一组具体的、可执行的子任务。拆解这件事本身就不简单，因为用户说的话往往很笼统，需要把它翻译成"我们要出哪几类题、每类考什么、用什么数据来支撑"这样清晰的规格。

规划器内部有三个专门负责不同工作的小模块，就像一个分工明确的编辑团队。第一个叫"设计智能体"，它的工作是拿到用户需求之后，先头脑风暴出一批候选题目类型，然后不断筛选、修改、淘汰，直到留下一组真正有价值、不重叠、覆盖面好的题型。第二个叫"落地智能体"，它的工作是确认每一类题型都能找到真实的数据来支撑，同时规划出把原始数据变成试题的具体方案。第三个叫"分配智能体"，负责在资源和数量限制下，合理安排每类题出多少道。

三个小模块之间会相互检查。如果某类题找不到合适的数据，设计智能体就得回去重新设计；如果数量安排不合理，分配智能体会反复调整，直到达到一个可行的方案。整个过程像一个内部审稿会，不断循环打磨，直到通过才往下走。

负责精确执行的部分叫做"Benchmark Executor（执行器）"。它拿到规划器给出的详细方案之后，开始逐条生成具体题目。执行器配备了一套工具箱，包括文字转语音、图像缩放、音频混合、网页搜索、噪声注入、文件格式转换、元数据编辑等十几种工具，既有调用AI模型完成的智能操作，也有纯程序化的确定性操作。

生成题目的过程是"边做边看"的。执行器先根据整体方案规划每一道题的生成步骤，然后实际执行这些步骤，把中间产出反馈回来，再根据反馈调整下一步操作。每道题生成之后，还要经过一道质量检验关——检查题目是否真的考到了目标能力，格式是否规范，答案是否正确。不合格的题目会被丢弃或重新生成，直到凑够预定数量。

用一个生活中的比喻来理解：如果把整个系统比作一家餐厅，规划器就是大厨长，负责制定菜单、确认食材来源、规划出餐数量；执行器就是具体的厨师团队，按照食谱实际烹饪，烤出来的每道菜还要经过品控员尝一口才能上桌。两者缺一不可，配合才能出好菜。

---

三、"出题机器"能出哪些题

研究团队用Benchmark Agent实际生成了15套涵盖不同场景的评测集，覆盖范围令人印象深刻。

在纯文字方向，系统生成了四套题库，分别测试"多视角叙事理解"（把同一件事情的不同描述整合起来，判断真正发生了什么）、"多语言推理"（信息散落在英语、中文、法语等不同语言的文本中，要求模型跨语言整合得出答案）、"长对话推理"（在多个说话人的长篇对话中追踪信息，回答综合性问题）、以及"数学证明步骤验证"（给出一段逐步展开的数学证明，要求模型找出其中哪一步逻辑有误）。

在语音理解方向，系统生成了三套题库，包括"多说话人语音推理"、"混合语言语音理解"和"噪声环境下的语音理解"。特别是后者，题目中的音频带有真实的背景噪声，考验AI在嘈杂环境中是否还能准确理解说话人的意图。

在图文结合方向，系统生成了七套题库，涵盖艺术作品鉴赏（从画面风格判断所属历史时期）、医学影像诊断（结合MRI图像和临床描述给出鉴别诊断）、动物细粒度识别（区分外形相似的不同犬种或鸟种）、地理区域推理、图中数学证明步骤查错、代码缺陷定位与修复，以及更难的艺术史推理（从画面推断画家、时代和相关艺术知识）。

还有一套跨越图像和语音的综合题库，要求模型同时处理视觉内容和对话音频，回答需要两种信息共同支撑才能得出的问题，比起单独处理图片或声音难度大幅提升。

---

四、题目质量怎么验证

出题不难，出好题才难。研究团队为了验证这套系统的质量，设计了三种互补的评估方式。

第一种是人工评估。研究人员请人类专家对生成的题目逐条评分，判断题目是否清晰、是否可以回答、答案是否正确、是否真的考到了目标能力。结果表明，在五套代表性题库中，人工接受率均在96%到98%之间——也就是说，100道题里大约只有2到4道会被专家认为有问题。

第二种是"AI当裁判"评估。研究团队设计了一套详细的评分标准，让另一个AI来充当考官，从六个维度给题目打分。这六个维度分别是：整套题库是否契合用户的原始意图、每道题的格式是否规范、题目和答案之间是否语义连贯、题目背景材料是否能支撑作答、题目是否真的需要目标能力才能解答（不能走捷径）、以及题目的难度是否有足够挑战性。这种多维度打分让评估结果更细致，也能看出系统在哪方面还有改进空间。结果显示，格式规范和语义连贯这两项得分很稳定，而"题目到底有多难"和"能不能走捷径绕过目标考查点"这两项得分相对偏低，说明让AI出出"真正难的好题"仍然有提升空间。

第三种是"鉴别力检验"。评估题库最终的目的是区分模型好坏，所以研究团队直接让不同大小的Qwen3.5系列模型（参数量分别为2B、4B、9B、27B，可以理解为从"小学生"到"博士生"的不同级别）去做这些题，看看成绩是否随着模型变大而有规律地提升。结果令人满意：在多视角推理题库上，成绩从71分稳步爬升到87分；在艺术推理和数学推理题库上，成绩虽然整体偏低（45分到56分），但也呈现出清晰的梯度。这说明这些题目确实能区分出强弱，没有出现"大家都满分"或"大家都不会"的极端情况。

---

五、和直接让AI出题相比，差别有多大

有人可能会问：何必搞这么复杂的系统，直接让ChatGPT或者其他大模型出题不就行了？研究团队对此做了直接的对比实验。

他们用相同的题目需求，分别让GPT-5.4、Claude-Sonnet-4-6、Gemini-3.1-Pro-Preview和Qwen3.5-397B这几个当前最强的AI模型直接生成题目，再用同一套标准评分。结果显示，直接让AI出题，在格式规范和语义连贯这两项确实也能得到还不错的分数，说明这些模型确实能写出"看起来像题目"的东西。但在"是否符合用户原始意图"、"是否真的考查了目标能力"、"题目难度是否足够"这几项关键指标上，直接生成的分数大幅落后于Benchmark Agent——差距通常在15到30分之间，相当显著。

这个差异背后的原因并不神秘：直接让AI出题，模型只是在凭感觉发挥，没有经历"需求分析—数据核实—方案验证—质量把关"这一套严格流程。就像让一个厨师随手炒一盘菜，和按照餐厅标准化流程烹制的出品，质量差异自然可观。Benchmark Agent的价值不在于它的每个步骤单独多聪明，而在于整套流程确保了题目从头到尾都贴近用户真实需求，而不是跑偏到相关但不准确的方向上。

---

六、换个AI来驱动这套系统，结果会变吗

研究团队还测试了用不同的AI模型作为Benchmark Agent的"大脑"时，生成质量是否会有明显变化。他们分别用Qwen3.5-397B-A17B、GPT-5.4、Claude-Sonnet-4-6和Gemini-3.1-Pro-Preview驱动同一套系统，结果发现：不同模型驱动下，最终题库的综合质量得分维持在一个相当稳定的范围内（比如在"多视角理解"这套题库上，四种配置的综合分在72到80分之间，差距不大）。换句话说，这套系统的质量主要来自整体流程设计，而不是依赖某个特定AI模型的超强能力。闭源商业模型在需要深层意图理解和多步规划的维度上略有优势，但差距并不悬殊。

---

七、这套系统省了多少人力

研究团队对人工出题和Benchmark Agent出题的时间成本做了直接比较。在"语音推理"类题库上，人工平均每道题需要6分钟，而Benchmark Agent只需要0.3分钟；在"艺术推理"类题库上，人工平均每道题需要5分钟，Benchmark Agent只需要0.2分钟。换算下来，速度提升了大约20到30倍。更重要的是，一旦系统部署完毕，需要更新题库时可以同时并行处理多批任务，速度还能进一步加快，而人工出题的速度不会因为需求增加而自动扩容。

---

八、实验揭示了当前AI模型的哪些短板

Benchmark Agent不只是一台出题机器，它生成的题库还帮助研究人员发现了一些关于当前AI系统的有趣规律。

研究团队用Benchmark Agent生成的图文题库对多个主流视觉-语言模型做了系统评测，结果呈现出明显的"能力不均衡"现象。以Qwen系列视觉模型为例，它们在地理区域识别和数学推理这两类任务上表现相当优秀，但在艺术品细节鉴赏和动物细粒度识别上明显吃力。这种差距可能源于训练数据的覆盖范围——模型对常见知识的掌握远优于需要专业细粒度感知的领域。

从具体的失败案例来看，这种差距体现得更加直观。有一道题给出了一幅使用饱和青绿色调的中国画，问它属于哪个历史时期，正确答案是"近现代对古典山水画的复兴"，但模型把它判断为"晚期传统文人画时期"，因为它只看到了"传统风格"，没能识别出"用传统形式做现代复兴"这一层更细腻的区别。还有一道医学题，给出了一张脑部MRI图像和患者症状，要求判断栓子最可能来自哪条动脉，正确答案是"远端基底动脉"，但模型选了"近端基底动脉"，原因是它过分关注了脑干受累这个笼统特征，忽略了"进行性嗜睡"这个提示远端"基底动脉顶端综合征"的关键线索。

在语音理解方向，一道题考查说话人归因，对话中律师明确说"这不是典型的诉讼"，但模型把这句话错误地归属到了当事人Ana身上。另一道题考查代词指代，对话中Speaker 2说"That is so sweet"，"That"指的是Speaker 1刚才表达的"我为我们关系能持续这么久感到兴奋"，但模型把它误解成了更早时候提到的"我们曾经形影不离的时光"，显示出模型在维持本地对话上下文、追踪近期话语指向方面存在明显不足。

---

九、这套系统还有哪些局限

研究团队对自己的系统相当坦诚，在论文中明确列出了三个主要局限。

首先，当前生成的题库主要覆盖了若干代表性任务，专业细分领域的覆盖还不够广。未来需要进一步扩充可以接入的数据集池，以支持更多用户定制场景。其次，系统能完成的操作受到工具箱中现有工具的限制，目前支持的变换类型有限，无法满足所有可能的题目构建需求。好消息是这套系统采用模块化设计，新工具可以随时接入，扩展起来并不困难。第三，虽然系统显著降低了人工成本，但少量人工抽查仍然是有价值的，因为完全自动化的质量控制还无法覆盖所有边角情况。研究团队计划加入更便捷的人机交互反馈机制，让专家能以极低成本对生成结果做快速修正。

---

说到底，这项研究的意义不只是"出题速度快了20倍"。更深层的价值在于它改变了评测题库的生命周期逻辑。以前，一套题库从诞生到被AI"考穿"，就算完成使命，研究人员再从头出新题。现在，有了Benchmark Agent，题库可以随着AI能力的演进而持续更新，用户可以根据自己的评测需求随时定制新的题目类型，整个评测体系从一次性消耗品变成了可持续运转的动态系统。

当然，"让AI给AI出题"这件事本身也带来了新的问题：如果出题的AI和被测试的AI来自同一个模型家族，会不会有"自己给自己出简单题"的风险？如何确保题目不会因为训练数据泄露而失去评测效力？这些问题在论文中尚未深入讨论，但无疑是接下来研究者需要认真面对的方向。

对于关心AI发展的普通读者来说，这项研究意味着：未来AI能力的评测将会更加持续、更加多样化、也更加贴近真实使用场景，而不再局限于那几套大家耳熟能详、已经快被"刷满分"的老题库。评测本身也在进化，而这恰恰是AI能良性进步的重要前提。如有兴趣深入研究这套系统的技术细节，可通过arXiv编号2606.06462查阅完整论文。

---

Q&A

Q1：Benchmark Agent能自动生成哪些类型的评测题目？

A：Benchmark Agent支持生成多种模态的评测题目，包括纯文本题（如多语言推理、长对话理解、数学证明查错）、图文结合题（如医学影像诊断、艺术鉴赏、代码调试）、纯语音题（如多说话人理解、噪声环境对话），以及同时涉及图像和语音的综合题目。目前研究团队已用这套系统生成了15套覆盖不同领域的评测集。

Q2：Benchmark Agent生成的题目质量怎么保证，人工审核还需要吗？

A：系统内置了自动质量控制流程，每道生成的题目都会经过格式检验和语义验证，不合格的会被丢弃或重新生成。人工专家评估结果显示，生成题目的人工接受率在96%到98%之间，质量相当可靠。不过研究团队也坦承，少量人工抽查仍然有价值，系统并不能完全取代人工判断，特别是在一些边界情况下。

Q3：Benchmark Agent和直接让ChatGPT等大模型出题有什么本质区别？

A：直接让大模型出题可以生成格式规范、语义通顺的题目，但很难保证题目真正契合用户的测试意图，也难以确保题目不能被走捷径绕过。Benchmark Agent的核心优势在于它有完整的"需求分析—数据落地验证—方案规划—质量把关"流程，确保每道题从头到尾都贴近原始评测目标。实验对比显示，在"是否符合用户意图"和"是否考查了目标能力"这两项关键指标上，Benchmark Agent比直接生成的方式高出15到30分。

查看全文

http://www.jsqmd.com/news/996230/