当前位置: 首页 > news >正文

实测 20 款多模态模型,情感理解能力仍有巨大短板

来源:人工智能前沿讲习 本文约2000字,建议阅读5分钟本文介绍了 MME-Emotion 评测基准,用于全面衡量多模态大模型情感智能。

近年来,多模态大模型(Multimodal Large Language Models, MLLMs)正在迅速改变人工智能的能力边界。从图像理解到视频分析,从语音对话到复杂推理,大模型正在逐步具备类似人类的综合感知能力。但一个关键问题仍然没有得到充分回答:这些模型真的能够理解人类情绪吗?

在真实世界中,人类的情绪往往通过多个模态共同表达。例如,一个人可能通过面部表情传递紧张情绪,同时语音语调也在变化,而语言内容可能只提供部分线索。对于人工智能系统而言,仅依赖单一信息来源往往难以准确判断情绪状态。因此,情感智能(Emotional Intelligence)逐渐成为衡量多模态大模型能力的重要指标之一。

然而,目前学界仍然缺乏一个系统性的评测框架来衡量多模态大模型的情感智能水平。已有情感数据集通常规模较小,场景覆盖有限,而且大多只关注情绪分类准确率。模型是否真正理解情绪产生的原因,以及能否在不同场景中稳定工作,往往没有得到充分评估。

为了解决这一问题,来自香港中文大学和阿里通义实验室的团队共同提出了 MME-Emotion,一个面向多模态大模型情感智能的综合评测基准。该工作已被 ICLR 2026 接收。

  • 论文标题:MME-Emotion: A Holistic Evaluation Benchmark For Emotional Intelligence in Multimodal Large Language Models

  • 项目主页:https://mme-emotion.github.io

  • 论文代码:https://github.com/FunAudioLLM/MME-Emotion

  • 论文数据:https://huggingface.co/datasets/Karl28/MME-Emotion

MME-Emotion 是目前规模最大的多模态情感智能评测基准之一,包含约 6500 段视频片段及对应问答数据,覆盖 27 类真实场景,并设计了 8 类不同情感任务。相比传统数据集,这一基准强调真实环境中的多模态信息融合能力,使模型必须同时理解视觉、语音和语言信息。

这些任务包括实验室环境情绪识别、真实场景情绪识别、噪声条件下情绪识别、细粒度情绪识别、多标签情绪识别、情感倾向分析、细粒度情感分析以及意图识别等多个方向。不同任务之间保持相对均衡的数据分布,使评测结果更加稳定可靠。

与以往工作相比,MME-Emotion 的一个重要特点是同时评测情绪识别能力和情绪推理能力。在许多已有数据集中,只要模型预测正确的情绪标签即可获得高分,但这种评测方式无法区分「猜对答案」和「真正理解情绪」的差别。

例如,在一个视频中,如果人物表现出恐惧情绪,模型不仅需要给出 “恐惧” 这一标签,还需要能够指出支撑这一判断的线索,例如面部表情变化、语音颤抖或者语速变化等。只有在这种情况下,我们才认为模型具备一定程度的情感理解能力。

为此,MME-Emotion 提出了一套统一的评测指标体系,包括情绪识别得分(Recognition Score)、推理得分(Reasoning Score)以及综合思维链得分(Chain-of-Thought Score)。其中识别得分用于衡量情绪预测准确率,推理得分用于衡量模型推理过程的合理性,而综合得分则同时反映识别能力与推理能力。

为了支持大规模自动评测,研究团队设计了一套基于多智能体系统的评测流程。系统首先获取模型对问题的回答,然后自动提取回答中的关键推理步骤,并结合视频帧信息和语音线索进行评分。这种方法避免了传统评测中大量人工标注推理过程的成本问题。

为了验证自动评测的可靠性,研究团队还邀请了多位专家对部分样本进行了人工评测。结果表明,自动评分与人工评分之间具有较高一致性,说明这一评测方法在实际使用中具有较好的稳定性。

在 MME-Emotion 基准上,研究团队评测了 20 个当前主流多模态大模型,包括多个开源模型以及闭源模型,如 GPT-4o、Gemini 系列以及 Qwen 系列模型。

实验结果显示,即使是当前最先进的模型,在情感智能方面仍然存在明显不足。表现最好的模型情绪识别得分不到 40%,综合思维链得分也只有约 56%。从整体平均结果来看,各模型在情绪识别任务上的表现仍然处于较低水平。

这些结果说明,多模态大模型虽然在视觉理解和语言推理方面取得了显著进展,但情感理解仍然是一个具有挑战性的方向。

进一步分析发现,目前模型在情感任务中主要存在几类典型问题。

首先是细粒度视觉理解能力不足。在许多错误案例中,模型难以区分相似情绪,例如恐惧与惊讶之间的差别。这类错误通常源于对面部表情和细微动作变化理解不足。

其次是多模态信息融合能力有限。一些模型在仅使用视觉信息时表现尚可,但当需要同时结合语音和视觉信息时反而出现性能下降。这说明当前模型在处理多模态情感线索时仍然存在困难。

此外,研究还发现模型推理能力与情绪识别能力之间存在明显相关性。通常来说,能够给出更完整推理过程的模型,其整体情感智能表现也更好。这一现象表明,推动模型进行更深入的推理可能是提升情感智能的一条重要路径。

整体来看,MME-Emotion 提供了一个更加全面的评测框架,使研究者能够系统分析多模态大模型在情感理解方面的能力边界。

研究团队认为,未来多模态情感智能的发展可能依赖几个关键方向,包括更高精度的视觉细节建模、更有效的语音与视觉信息融合方法,以及能够解释情绪产生原因的推理机制。

随着多模态大模型不断发展,情感智能有望成为人工智能系统的重要能力之一。在教育、人机交互和医疗辅助等应用场景中,能够理解人类情绪的智能系统将具有重要价值。

MME-Emotion 的发布为这一研究方向提供了统一评测标准,也为后续模型改进提供了清晰的参考基线。

作者介绍

章帆,香港中文大学计算机科学与工程系博士生,导师为 Pheng-Ann Heng 教授。主要研究方向为多模态大模型与 Agent 系统,关注多模态理解、推理能力评测以及面向复杂任务的智能体工作流设计。近年来在 ICLR、CVPR、NeurIPS 等国际会议发表多篇论文,相关研究工作涵盖多模态大模型评测基准构建、后训练以及深度研究型智能体(Deep Research Agents)。目前致力于探索多模态 Agent 系统在复杂真实任务中的能力边界与应用潜力。

编辑:于腾凯

校对:林亦霖

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

http://www.jsqmd.com/news/657368/

相关文章:

  • 如何部署OpenClaw?2026年4月腾讯云2分钟保姆级本地安装及百炼Coding Plan指南
  • ESP32一键开关机电路实战:从硬件选型到代码调试全流程(附避坑指南)
  • 如何彻底掌控你的数字记忆:WeChatMsg完整数据备份指南
  • Dify实战:如何用CacheEmbedding优化RAG系统的文本向量计算性能?
  • 欧洲推出开源年龄验证应用程序,保护孩子免受网络有害内容侵害!
  • 如何用5分钟彻底优化你的Windows系统:Winhance中文版完整指南
  • Excel实战:用AVERAGE和ABS函数3步搞定平均值偏差计算(附模板下载)
  • Cocos Creator 3.x 实战:用BoxCollider和CircleCollider做个简单的2D物理小游戏(附完整源码)
  • 如何快速实现Windows镜像自动化补丁集成:3大创新解决方案终极指南
  • 信利康大厦的租赁电话 - 企业推荐官【官方】
  • 干眼症用什么眼药水比较好?你所关心的21个问题一次说明白
  • 西门子PLC伺服大型多轴多气缸智能控制,Modbus与RS232通讯,完整触摸屏程序,机械结构...
  • PROFINET通讯中断的根源诊断与网络优化策略
  • [Linux]基于Alibaba Cloud Linux 3.x系统的宝塔下安装RabbitMQ
  • 测试技术中的自动化测试性能测试与安全测试
  • 云与本地混合许可证管理模式
  • Qsign签名服务:3分钟搭建Windows本地QQ签名API的完整指南
  • Ubuntu 20.04 LTS服务器部署Skynet:从源码编译到服务启动全流程
  • 2026 年堆垛机货叉公司核心技术有哪些?稳定承载,精准存取 - 企业推荐官【官方】
  • 数字图像相关(DIC)测量系统在软物质实验力学中的应用
  • 2026年常州殡葬一条龙服务中心推荐榜单:殡仪服务一条龙、白事一条龙、丧事一条龙、殡葬用品批发、寿衣店服务中心选择指南 - 海棠依旧大
  • 12:机台I/O点位表详解(EAP核心必备)
  • 基于STM32的人群定位与调速智能风扇设计方案
  • 2026 年伸缩货叉厂家告诉您高效仓储核心部件怎么选? - 企业推荐官【官方】
  • 从JPEG到HEVC:手把手带你用Python实现霍夫曼与算术编码(附完整代码)
  • 2026年 AI GEO获客推广公司推荐榜单:网站优化、营销型网站建设、本地推开户、本地推代运营、本地推广告开户公司选择指南 - 海棠依旧大
  • 承德天顺凹痕修复:车门小坑、冰雹坑,无痕复原 - 企业推荐官【官方】
  • 臻灵:数字人+大模型,实时交互的技术临界点在哪里
  • 告别时序混乱:手把手配置AD9361的CMOS数据接口(单/双端口,SDR/DDR详解)
  • 2026专业的自动锁螺丝机厂商哪家好 - 企业推荐官【官方】