当前位置: 首页 > news >正文

陈文虎及其团队推出MMLU - Pro、MMMU等评测,为AI模型评估补漏洞

旧考卷失灵之后

每次前沿模型发布,AI圈都会盯着MMLU - Pro、MMMU、MMMU - Pro等“标准科目”成绩单,GPT、Claude等模型不断在这些基准上交卷。但有意思的是,几乎所有人关注分数,却少有人知道出题人是陈文虎。

陈文虎最先被更多人注意,是因为MMLU - Pro。MMLU曾是大语言模型能力评估常用基准评测,早期有用,但随着模型能力提升,它变得“不够考”,前沿模型分数接近满分,难以继续判断谁更强。2024年,陈文虎和团队推出MMLU - Pro,重新改造考卷,包含12032道题,覆盖14个领域,把选项从4个扩展到10个,加入更多偏推理问题,清理简单、有歧义或区分度不足的题目。论文结果显示,模型在MMLU - Pro上准确率相比原版MMLU下降16%到33%,成绩波动也下降,新卷子更难且更稳定,拉开了模型差距。

好用的基准评测

MMLU - Pro很快被行业采用,进入NeurIPS2024数据集与基准评测赛道,被EleutherAI的语言模型评测框架lm - evaluation - harness集成,很多模型发布开始报告其分数,HuggingFace排行榜也将其纳入评估体系。

MMMU则把陈文虎和TIGERLab推到多模态评测中心。多模态模型问题更复杂,要处理多种形式信息,需结合视觉、文本和学科知识推理。MMMU基准评测包含1.15万道多模态问题,来自大学考试等,覆盖六大领域,细分30个学科和183个子领域。发布时测试了14个开源多模态模型及GPT - 4V、GeminiUltra等闭源模型,即便最强闭源模型准确率也仅56%和59%,说明多模态模型在专业理解和推理上仍有提升空间。后来陈文虎团队推出MMMU - Pro,堵住模型绕过视觉信息的空间,不让模型“只看文字猜答案”。

“考卷”背后的人

陈文虎做MMLU - Pro和MMMU源于其研究方向,他对复杂信息理解、知识问答和推理感兴趣。他本科毕业于华中科技大学,后到德国亚琛工业大学攻读硕士,再到加州大学圣巴巴拉分校获博士学位,博士期间围绕复杂问答等方向研究。他参与过HybridQA等项目,对模型评估漏洞敏感,好的基准评测要预判模型“蒙对题”的漏洞并补好。

博士毕业后,陈文虎进入谷歌研究院,2021 - 2025年参与谷歌DeepMind的Gemini多模态模型和评估工作。2022年秋季加入滑铁卢大学担任助理教授,同年入选CanadaCIFARAIChair,创办“老虎实验室(虎头帮)”,继续围绕基础模型等展开研究。虎头帮不仅做基准评测,还做模型和系统研究,如UniVideo、Vamba、MoCha等项目。自己做模型让他们更适合做评估,因为好的评估源于对模型能力边界的理解。如今,陈文虎进入Meta超级智能实验室,工作集中在多模态预训练数据和评估,服务于Meta基础模型。AI行业中,聚光灯常落在创业者等身上,但华人人才的参与不止这些显眼位置。

http://www.jsqmd.com/news/1053476/

相关文章:

  • NXP S12ZVM电机控制实战:失速检测与电流采样方案详解
  • 怀化市2026年黄金回收本地靠谱白银回收+铂金回收门店指南 优选门店汇总及电话地址推荐 - 大熊猫898989
  • XUnity.AutoTranslator实战指南:Unity游戏实时翻译的架构革新与深度应用
  • Claude API集成实战:避开requests/fetch陷阱,用官方SDK正确对接
  • 衡水市2026年黄金回收优选门店汇总及电话地址推荐 本地靠谱白银回收+铂金回收门店指南 - 盛世金银回收
  • 嵌入式GUI编译配置优化:从emWin实战解析资源受限系统的UI开发
  • TWR-K65F180M开发板全解析:从Cortex-M4核心到工业应用实战
  • 炉石传说增强插件架构深度解析与实战配置指南
  • DOMSteer:基于DOM操作的AI智能体网页自动化框架设计与实现
  • 嵌入式GUI开发实战:深入解析emWin对话框机制与通用组件应用
  • GPT-2注意力、位置编码与MLP协同机制的因果实验分析
  • 宁德市2026年黄金回收本地靠谱白银回收+铂金回收门店指南 优选门店汇总及电话地址推荐 - 大熊猫898989
  • Ubuntu 14.04 Nginx Server Blocks 配置原理与排错实战
  • 终极解决方案:如何一次性搞定Windows系统依赖的Visual C++运行库完整安装指南
  • OpenClaw本地AI Agent一键部署实战指南
  • 淮安市2026年黄金回收本地靠谱白银回收+铂金回收门店指南 优选门店汇总及电话地址推荐 - 大熊猫898989
  • 2026年温州AI搜索优化服务商深度横评:爱搜索GEO重塑企业AI搜索新生态 - 品牌报告
  • 跨设备文件传输新体验:百灵快传如何让手机电脑大文件共享变得简单
  • 【鸿蒙】HarmonyOS 蓝牙/NFC 短距通信完全指南:从扫描到数据交换的全流程实战
  • OpenMobile框架:基于环境记忆增强的移动端智能体任务合成方法
  • OpenClaw+GLM 5.0 Windows本地部署实战指南
  • 基于平衡权重与动态重加权的最大流算法:原理、实现与优化
  • Codex接入DeepSeek API完整指南:协议对齐与配置避坑
  • 衡阳市2026年黄金回收优选门店汇总及电话地址推荐 本地靠谱白银回收+铂金回收门店指南 - 盛世金银回收
  • 字节跳动招聘骗局与内部人才绞肉机完整内幕白皮书
  • XUnity自动翻译器:Unity游戏本地化终极解决方案深度解析
  • 渐进式蒸馏:从扩散模型到实时音频驱动数字人的单步生成技术
  • 基于轨迹增强的视觉运动策略泛化:让机器人移动操作更智能
  • Llama 3本地实战:从代码精读、微调到vLLM部署全链路
  • 解放双手,终极免费的游戏自动化助手:D3KeyHelper暗黑3技能连点工具完全指南