当前位置：首页 > news >正文

MMMU多模态基准测试项目：从安装到评估的完整指南

news 2026/3/27 2:34:52

MMMU多模态基准测试项目：从安装到评估的完整指南

【免费下载链接】MMMUThis repo contains evaluation code for the paper "MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI"项目地址: https://gitcode.com/gh_mirrors/mm/MMMU

MMMU（Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI）是一个专门用于评估多模态模型在多学科任务中理解和推理能力的大型基准测试项目。该项目包含来自大学考试、测验和教科书的11,500个精心收集的多模态问题，覆盖艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程六大核心学科领域。MMMU旨在挑战模型在具有领域特定知识的任务中的高级感知和推理能力，推动下一代多模态基础模型的发展。

项目核心价值与特点

MMMU项目的主要特点体现在其全面性和挑战性上。该基准测试涵盖30个主要学科和183个子领域，包含32种高度异构的图像类型，如图表、图解、地图、表格、乐谱和化学结构等。与现有基准测试相比，MMMU专注于具有领域特定知识的高级感知和推理，挑战模型执行类似于专家面临的任务。

环境配置与项目安装

在开始使用MMMU项目之前，需要确保系统满足以下环境要求：

操作系统：Linux或macOS（推荐Ubuntu 20.04或更高版本）
Python版本：Python 3.8或更高版本
依赖管理：建议使用虚拟环境管理项目依赖

环境配置步骤

安装Python 3.8：

sudo apt update sudo apt install python3.8

安装pip包管理器：
```
sudo apt install python3-pip
```

创建虚拟环境：

python3 -m venv mmmu_env source mmmu_env/bin/activate

项目安装流程

首先克隆项目仓库到本地：

git clone https://gitcode.com/gh_mirrors/mm/MMMU cd MMMU

然后安装项目依赖：

pip install -r requirements.txt

MMMU-Pro增强版本介绍

MMMU-Pro是基于MMMU的增强版本，引入了更严格的评估方法来评估多模态模型的内在理解和推理能力。MMMU-Pro采用精心构建的三步流程：

过滤纯文本可回答的问题：确保问题真正需要多模态理解
增强候选选项：引入更多合理选项使任务更具挑战性
仅视觉输入设置：将问题嵌入图像中，推动AI同时"看"和"读"

核心脚本功能介绍

评估脚本详解

MMMU项目提供了多个核心评估脚本，每个脚本都有特定的功能：

main_eval_only.py：仅进行模型输出评估
main_parse_and_eval.py：解析响应并进行评估
run_llava.py：运行LLaVA模型的示例脚本

数据预处理工具

项目中的data_utils.py提供了丰富的数据处理功能：

save_json：保存JSON格式数据
get_multi_choice_info：处理多选题信息
construct_prompt：构建模型提示

模型评估实战操作

仅评估模式使用

如果你只想使用自己的解析逻辑并仅提供最终答案，可以使用main_eval_only.py：

python main_eval_only.py --output_path ./example_outputs/llava1.5_13b/total_val_output.json

输出文件格式要求：

{ "validation_Accounting_1": "D", "validation_Architecture_and_Engineering_14": "0.0" }

解析与评估完整流程

使用main_parse_and_eval.py可以利用项目的完整解析处理和评估管道：

python main_parse_and_eval.py --path ./example_outputs/llava1.5_13b --subject ALL

或者指定特定学科进行评估：

python main_parse_and_eval.py --path ./example_outputs/llava1.5_13b --subject elec

结果展示与统计

项目提供了专门的结果打印脚本：

python print_results.py --path ./example_outputs/llava1.5_13b

MMMU-Pro评估实战

模型推理配置

MMMU-Pro提供了多种推理脚本，支持不同的模型和设置：

cd mmmu-pro python infer/infer_gpt.py gpt-4o cot vision

模型名称：如gpt-4o
提示模式：cot（思维链）或direct（直接回答）
推理设置：standard(10 options)、standard(4 options)或vision

评估执行流程

进入MMMU-Pro目录运行评估：

cd mmmu-pro python evaluate.py

评估脚本将：

从./output目录加载推理结果
在控制台生成并显示评估报告
将评估报告保存到./output目录

常见问题与解决方案

标准设置中的选项顺序问题

在标准（10选项）设置中，多选题选项会被打乱顺序，这意味着<image i>标记在选项列表中的顺序可能不遵循数据集中image_i键的顺序序列。例如，一个问题可能具有以下选项顺序：

options: ['<image 2>', '<image 1>', '<image 4>', '<image 3>']

项目目录结构解析

MMMU/ ├── mmmu/ # 原始MMMU评估代码 │ ├── configs/ # 配置文件 │ ├── example_outputs/ # 示例输出 │ └── utils/ # 工具函数 └── mmmu-pro/ # MMMU-Pro增强版本 ├── infer/ # 推理脚本 └── output/ # 输出结果