当前位置：首页 > news >正文

When Tables Go Crazy Evaluating Multimodal Models on French Financial Documents

news 2026/3/26 17:14:25

When Tables Go Crazy: Evaluating Multimodal Models on French Financial Documents

Authors:Virginie Mouilleron, Théo Lasnier, Djamé Seddah

Deep-Dive Summary:

论文总结：当表格变疯狂：在法国金融文档上评估多模态模型

摘要 (Abstract)

视觉语言模型（VLMs）在许多文档理解任务中表现出色，但其在专业、非英语领域的可靠性仍有待探索。金融领域尤为关键，因为其文档融合了密集的监管文本、数值表格和视觉图表。本研究引入了MULTIMODAL FINANCE EVAL，这是第一个评估法国金融文档理解的多模态基准测试。该数据集包含 1,204 个经专家验证的问题，涵盖文本提取、表格理解、图表解读和多轮对话推理。评估结果显示，虽然模型在文本和表格任务中表现强劲（准确率 85-90%），但在图表解读（34-62%）和多轮对话（由于错误传播，准确率降至约 50%）方面表现欠佳。

1. 引言 (Introduction)

尽管大型语言模型（LLMs）在 NLP 领域取得了巨大进步，但在金融等专业领域的评估仍不均衡。金融文档（如投资招募说明书）通常很长（10 1010到600 + 600+600+页），术语专业，信息分布在文本、表格和图表中。

图 1：MULTIMODAL FINANCE EVAL 基准测试构建和评估流程概述。

由于缺乏专门的法语金融基准测试，很难评估模型在这些高风险应用中的准备情况。为此，本研究构建了包含 1,204 个问题的基准测试，涵盖开放式、是非题和多轮对话等类型，旨在评估模型准确定位和提取信息的能力。

2. 相关工作 (Related Works)

目前的评估资源主要集中在英语领域，或者通用领域的法语 QA（如 FQuAD）。虽然金融领域有一些专业基准（如 TAT-QA, FinQA），但它们大多仅限英语，且较少涉及图表等多模态输入。本工作填补了法语多模态长篇金融文档评估的空白。

3. 资源构建 (Resource Construction)

数据集由过去 15 年间公开的法语金融文档（招募说明书、KIDs、PRIIPs）构建。

3.1 数据收集与处理

采用半自动流程：利用 GPT-4o 和 Gemini-2.0 生成问题，再由人工进行审核和修订。为了评估检索准确性，每个问题都锚定在特定的文档片段而非整篇文档。

3.2 任务概述与统计

基准测试包含六大任务类别：文本问题、表格理解、图表解读、特殊案例以及两种多轮对话设置（黄金上下文与模型上下文）。

表 1：MULTIMODAL FINANCE EVAL 基准测试分布（共 1,204 个问题）。

任务	文本基础	图像基础
文本	表格	图表	对话	特殊案例
问题类型	开放式	501	248	94	0	19
是/否	0	93	28	0	3
真/假	0	27	6	0	0
选择题	0	0	0	65	0
上下文类型	短文本	38	0	0	0	0
中等文本	146	0	0	0	6
长文本	108	0	0	30	16
超长文本	14	0	0	0	0
文档级 (Kid)	184	0	0	0	0
表格	11	335	0	15	0
表格 & 短文本	0	22	0	20	0
表格 & 中等文本	0	11	0	0	0
图表	0	0	73	0	0
图表 & 短文本	0	0	55	0	0
总计	501	368	128	65	22

4. 实验设置 (Experimental Setup)

模型：评估了六个视觉语言模型，参数量从 8B 到 124B，包括 Qwen3-VL、Gemma-3 和 Pixtral 系列。
生成：模型被要求简洁回答。多轮对话中，仅在第一轮提供图像。
评估：采用 LLM-as-judge 协议，由 Llama-3.3-70B、Qwen3-32B 和 Gemma-3-27B 进行投票裁定。

5. 结果与分析 (Results and Analysis)

Qwen3-VL-32B 表现最佳（平均 75.6%）。主要结论如下：

文本和表格任务强劲：顶级模型在文本提取上接近 90%，在表格理解上达到 85.8%。
图表解读是短板：所有模型的得分在 34.4% 到 61.7% 之间。
多轮对话中的错误传播：在“模型上下文”设置下，由于前期错误会污染后续对话，所有模型的准确率均坍塌至 50% 左右（∼ 46 − 59 % \sim 46 - 59\%∼46−59%），且模型规模的扩大并不能缓解这一问题。

表 2：模型在 MULTIMODAL FINANCE EVAL 上的性能（准确率% \%%）。

模型	文本	表格	图表	对话 (Gold)	对话 (Std)	特殊案例	平均
Qwen3-VL-8B	89,4	80,0	45,3	73,8	52,3	63,6	67,8
Gemma-3-12B	88,0	85,8	46,1	70,8	50,8	40,9	63,8
Pixtral-12B	88,4	51,7	34,4	63,1	52,3	27,3	53,4
Gemma-3-27B	89,0	85,0	48,4	73,8	49,2	54,5	66,2
Qwen3-VL-32B	89,8	85,8	61,7	86,2	58,5	72,7	75,6
Pixtral-Large-124B	87,8	71,7	46,1	70,8	46,2	63,6	55,2

图 2：模型在图像基础子类别上的准确率。表格理解较强，图表解读较弱。

图 3：基于不同上下文长度的文本类问题准确率。

6. 讨论 (Discussion)

VLMs 在定位显式事实方面表现可靠，但在需要视觉抽象（如图表）和多步骤推理（如对话）时非常脆弱。这揭示了当前模型更依赖表面模式匹配而非深层逻辑。此外，自动生成问题存在偏差，倾向于简单的数值提取，需人工干预以确保覆盖复杂的推理场景。

7. 结论 (Conclusion)

MULTIMODAL FINANCE EVAL 为评估视觉语言模型在法语金融文档理解方面的能力提供了具有挑战性的基准。研究强调，未来的进步需要超越单纯的模型规模扩大，应关注不确定性感知、纠错机制和更稳健的多模态多步推理。

10. 附录：数据集示例 (Appendix)

10.1.1 表格理解示例

图 4：金融文档中的示例表格。

问题：哪种类别的份额收取赎回费？
回答：A (perf), D (perf)

10.1.2 图表解读示例

图 6：需要视觉解读的金融图表示例。

问题：CD France Expertise 基金在 2018 年的表现如何？
回答：- 2,0 %

Original Abstract:Vision-language models (VLMs) perform well on many document understanding tasks, yet their reliability in specialized, non-English domains remains underexplored. This gap is especially critical in finance, where documents mix dense regulatory text, numerical tables, and visual charts, and where extraction errors can have real-world consequences. We introduce Multimodal Finance Eval, the first multimodal benchmark for evaluating French financial document understanding. The dataset contains 1,204 expert-validated questions spanning text extraction, table comprehension, chart interpretation, and multi-turn conversational reasoning, drawn from real investment prospectuses, KIDs, and PRIIPs. We evaluate six open-weight VLMs (8B-124B parameters) using an LLM-as-judge protocol. While models achieve strong performance on text and table tasks (85-90% accuracy), they struggle with chart interpretation (34-62%). Most notably, multi-turn dialogue reveals a sharp failure mode: early mistakes propagate across turns, driving accuracy down to roughly 50% regardless of model size.
These results show that current VLMs are effective for well-defined extraction tasks but remain brittle in interactive, multi-step financial analysis. Multimodal Finance Eval offers a challenging benchmark to measure and drive progress in this high-stakes setting.

PDF Link:2602.10384v1