当前位置: 首页 > news >正文

When Tables Go Crazy Evaluating Multimodal Models on French Financial Documents

When Tables Go Crazy: Evaluating Multimodal Models on French Financial Documents

Authors:Virginie Mouilleron, Théo Lasnier, Djamé Seddah

Deep-Dive Summary:

论文总结:当表格变疯狂:在法国金融文档上评估多模态模型

摘要 (Abstract)

视觉语言模型(VLMs)在许多文档理解任务中表现出色,但其在专业、非英语领域的可靠性仍有待探索。金融领域尤为关键,因为其文档融合了密集的监管文本、数值表格和视觉图表。本研究引入了MULTIMODAL FINANCE EVAL,这是第一个评估法国金融文档理解的多模态基准测试。该数据集包含 1,204 个经专家验证的问题,涵盖文本提取、表格理解、图表解读和多轮对话推理。评估结果显示,虽然模型在文本和表格任务中表现强劲(准确率 85-90%),但在图表解读(34-62%)和多轮对话(由于错误传播,准确率降至约 50%)方面表现欠佳。

1. 引言 (Introduction)

尽管大型语言模型(LLMs)在 NLP 领域取得了巨大进步,但在金融等专业领域的评估仍不均衡。金融文档(如投资招募说明书)通常很长(10 1010600 + 600+600+页),术语专业,信息分布在文本、表格和图表中。

图 1:MULTIMODAL FINANCE EVAL 基准测试构建和评估流程概述。

由于缺乏专门的法语金融基准测试,很难评估模型在这些高风险应用中的准备情况。为此,本研究构建了包含 1,204 个问题的基准测试,涵盖开放式、是非题和多轮对话等类型,旨在评估模型准确定位和提取信息的能力。

2. 相关工作 (Related Works)

目前的评估资源主要集中在英语领域,或者通用领域的法语 QA(如 FQuAD)。虽然金融领域有一些专业基准(如 TAT-QA, FinQA),但它们大多仅限英语,且较少涉及图表等多模态输入。本工作填补了法语多模态长篇金融文档评估的空白。

3. 资源构建 (Resource Construction)

数据集由过去 15 年间公开的法语金融文档(招募说明书、KIDs、PRIIPs)构建。

3.1 数据收集与处理

采用半自动流程:利用 GPT-4o 和 Gemini-2.0 生成问题,再由人工进行审核和修订。为了评估检索准确性,每个问题都锚定在特定的文档片段而非整篇文档。

3.2 任务概述与统计

基准测试包含六大任务类别:文本问题、表格理解、图表解读、特殊案例以及两种多轮对话设置(黄金上下文与模型上下文)。

表 1:MULTIMODAL FINANCE EVAL 基准测试分布(共 1,204 个问题)。

任务文本基础图像基础
文本表格图表对话特殊案例
问题类型开放式50124894019
是/否0932803
真/假027600
选择题000650
上下文类型短文本380000
中等文本1460006
长文本108003016
超长文本140000
文档级 (Kid)1840000
表格113350150
表格 & 短文本0220200
表格 & 中等文本011000
图表007300
图表 & 短文本005500
总计5013681286522

4. 实验设置 (Experimental Setup)

  • 模型:评估了六个视觉语言模型,参数量从 8B 到 124B,包括 Qwen3-VL、Gemma-3 和 Pixtral 系列。
  • 生成:模型被要求简洁回答。多轮对话中,仅在第一轮提供图像。
  • 评估:采用 LLM-as-judge 协议,由 Llama-3.3-70B、Qwen3-32B 和 Gemma-3-27B 进行投票裁定。

5. 结果与分析 (Results and Analysis)

Qwen3-VL-32B 表现最佳(平均 75.6%)。主要结论如下:

  1. 文本和表格任务强劲:顶级模型在文本提取上接近 90%,在表格理解上达到 85.8%。
  2. 图表解读是短板:所有模型的得分在 34.4% 到 61.7% 之间。
  3. 多轮对话中的错误传播:在“模型上下文”设置下,由于前期错误会污染后续对话,所有模型的准确率均坍塌至 50% 左右(∼ 46 − 59 % \sim 46 - 59\%4659%),且模型规模的扩大并不能缓解这一问题。

表 2:模型在 MULTIMODAL FINANCE EVAL 上的性能(准确率% \%%)。

模型文本表格图表对话 (Gold)对话 (Std)特殊案例平均
Qwen3-VL-8B89,480,045,373,852,363,667,8
Gemma-3-12B88,085,846,170,850,840,963,8
Pixtral-12B88,451,734,463,152,327,353,4
Gemma-3-27B89,085,048,473,849,254,566,2
Qwen3-VL-32B89,885,861,786,258,572,775,6
Pixtral-Large-124B87,871,746,170,846,263,655,2

图 2:模型在图像基础子类别上的准确率。表格理解较强,图表解读较弱。

图 3:基于不同上下文长度的文本类问题准确率。

6. 讨论 (Discussion)

VLMs 在定位显式事实方面表现可靠,但在需要视觉抽象(如图表)和多步骤推理(如对话)时非常脆弱。这揭示了当前模型更依赖表面模式匹配而非深层逻辑。此外,自动生成问题存在偏差,倾向于简单的数值提取,需人工干预以确保覆盖复杂的推理场景。

7. 结论 (Conclusion)

MULTIMODAL FINANCE EVAL 为评估视觉语言模型在法语金融文档理解方面的能力提供了具有挑战性的基准。研究强调,未来的进步需要超越单纯的模型规模扩大,应关注不确定性感知、纠错机制和更稳健的多模态多步推理。

10. 附录:数据集示例 (Appendix)

10.1.1 表格理解示例

图 4:金融文档中的示例表格。

问题:哪种类别的份额收取赎回费?
回答:A (perf), D (perf)

10.1.2 图表解读示例

图 6:需要视觉解读的金融图表示例。

问题:CD France Expertise 基金在 2018 年的表现如何?
回答:- 2,0 %

Original Abstract:Vision-language models (VLMs) perform well on many document understanding tasks, yet their reliability in specialized, non-English domains remains underexplored. This gap is especially critical in finance, where documents mix dense regulatory text, numerical tables, and visual charts, and where extraction errors can have real-world consequences. We introduce Multimodal Finance Eval, the first multimodal benchmark for evaluating French financial document understanding. The dataset contains 1,204 expert-validated questions spanning text extraction, table comprehension, chart interpretation, and multi-turn conversational reasoning, drawn from real investment prospectuses, KIDs, and PRIIPs. We evaluate six open-weight VLMs (8B-124B parameters) using an LLM-as-judge protocol. While models achieve strong performance on text and table tasks (85-90% accuracy), they struggle with chart interpretation (34-62%). Most notably, multi-turn dialogue reveals a sharp failure mode: early mistakes propagate across turns, driving accuracy down to roughly 50% regardless of model size.
These results show that current VLMs are effective for well-defined extraction tasks but remain brittle in interactive, multi-step financial analysis. Multimodal Finance Eval offers a challenging benchmark to measure and drive progress in this high-stakes setting.

PDF Link:2602.10384v1

部分平台可能图片显示异常,请以我的博客内容为准

http://www.jsqmd.com/news/375175/

相关文章:

  • python学习笔记4运算符与表达式
  • 深入解析:SRS流媒体服务器二次开发-实现媒体流采集服务
  • 2026主管护师3个月极限上岸:这份详细备考拆解方案,现在看完全来得及! - 医考机构品牌测评专家
  • 【Azure APIM】为何APIM自建网关中的cache-lookup-value策略无法正常工作?
  • 我用 GLM-5 做了个 AI 女友,能发自拍、发语音、还能帮我干活!
  • 基于元胞自动机的动态再结晶与晶粒长大模拟程序功能说明
  • 2026主管护师3个月通关攻略:来得及!这份高效备考安排请收好 - 医考机构品牌测评专家
  • P10719 [GESP202406 五级] 黑白格 二维前缀和
  • 告别无效刷题:2026主管护师备考APP高分榜最新出炉,这三款杀出重围 - 医考机构品牌测评专家
  • 速通秘籍!提示工程架构师的提示系统用户反馈机制设计
  • 2026主管护师备考:5款主流刷题APP功能特征梳理与选择参考 - 医考机构品牌测评专家
  • FPGA 工程师如何提升自己?
  • 科学刷题方法论:2026主管护师考前冲刺怎么刷题?三阶段适配方案与刷题资源解析 - 医考机构品牌测评专家
  • 2026主管护师考前冲刺怎么高效刷题?3阶刷题法+4款实测,这份测评值得收藏 - 医考机构品牌测评专家
  • 2026执医考试哪个机构押题准?3大热门机构硬核对比,综合实力TOP1是它 - 医考机构品牌测评专家
  • 如何下载、安装whisper、faster_whisper?深度解析:原理、实战与踩坑记录
  • 怎么查看SSL证书还有多久到期?
  • 哪个机构执业医师面授班好?请收好这份选择指南 - 医考机构品牌测评专家
  • 主管护师考试押题卷横向测评与优选推荐 - 医考机构品牌测评专家
  • 安装快、组网易:ADL400N-CT,让防逆流系统部署不再“拖泥带水”
  • Calibre中文版下载安装教程:2026最新电子书管理软件,支持EPUB/MOBI/PDF互转 - xiema
  • 2026年知名的阳光板温室大棚建设,连栋温室大棚建设,智能温室大棚建设厂家选购参考榜 - 品牌鉴赏师
  • 主流主治考试冲刺卷维度测评,助力医师睿智择优 - 医考机构品牌测评专家
  • 差动保护+光纤环网:解密AM6-PW的“硬核”科技力
  • 软硬一体,全程陪伴:安科瑞如何打通零碳园区“最后一公里”?
  • 延迟低至30ms,甚至能鼠标控iPhone:这款新的的国产投屏神器,让我卸载了所有同类
  • 主治医师考试高口碑讲师推荐 - 医考机构品牌测评专家
  • 详细介绍:记录自己第一次将React 编写的前端部署到服务器,实现外网访问
  • 降本、合规、增效:EMS3.0一站式破解园区“碳”锁难题
  • 企业如何有效开展豆包推广?四大核心策略 - 品牌2025