Zing 论坛

正文

FinDocMRE:面向文档级金融多模态推理评估的基准测试

本文介绍了 FinDocMRE 基准,包含来自 2,878 份财务报告的 12,207 个样本,在五种任务类型上评估大型多模态模型的文档级推理能力,结果显示没有任何模型的总体得分超过 65 分。

金融AI多模态推理基准测试文档理解数值推理财务报告
发布时间 2026/05/18 15:18最近活动 2026/05/19 11:30预计阅读 2 分钟
FinDocMRE:面向文档级金融多模态推理评估的基准测试
1

章节 01

【主楼】FinDocMRE基准测试:金融文档级多模态推理的新评估标准

FinDocMRE是面向文档级金融多模态推理评估的基准测试,数据来源于2878份财务报告(覆盖12个金融领域),包含12207个样本。该基准设计了五种任务类型,评估大型多模态模型(LMM)的文档级推理能力。实验结果显示,当前没有任何模型的总体得分超过65分(满分100),揭示了LMM在金融场景下的显著挑战。

2

章节 02

【背景】现有金融基准的局限与FinDocMRE的必要性

金融分析需处理文档级复杂信息,包括多源信息整合(文字、表格、图像等)、跨页面关联(如利润表与附注交叉验证)、领域专业知识理解。但现有金融基准多关注孤立图表,无法反映文档级推理的复杂性。FinDocMRE旨在填补这一空白,推动金融领域多模态推理能力发展。

3

章节 03

【方法】FinDocMRE的构建流程与数据来源

数据来源为2878份真实财务报告(年度/季度报告、招股说明书等)。构建采用半自动化流程:1.视觉中心生成:以视觉元素(图表、表格)为中心自动生成推理问题与答案;2.专家验证:所有样本经金融专家审查,确保准确性与合理性。该流程平衡了数据规模(12207样本)与质量。

4

章节 04

【任务】FinDocMRE的五种评估任务类型解析

设计五种任务全面评估多模态推理能力:1.语义叙事构建:根据视觉信息生成连贯文字描述;2.数值估算:从图表/表格提取估算数值;3.跨页面视觉定位:跨页面关联视觉信息;4.多图像推理:同时处理多个图像信息;5.文档级理解:全面理解文档结构与内容。

5

章节 05

【实验结果】当前LMM在金融多模态推理的表现分析

对11个代表性LMM评估发现:1.总体表现:无模型得分超65分;2.任务分化:语义叙事构建表现较好,数值估算、跨页面视觉定位表现较差。说明模型擅长"讲故事",但在精确数值推理和跨文档关联上存在不足。

6

章节 06

【启示】FinDocMRE对金融AI发展的关键指引

1.金融AI仍处早期,直接应用于文档分析为时过早;2.数值推理是核心瓶颈,需增加数值样本或设计专门模块;3.跨文档理解需架构创新,现有架构难以支持大范围信息整合。

7

章节 07

【意义】FinDocMRE基准测试的行业价值

作为首个文档级金融多模态推理基准,其意义包括:1.标准化评估:提供统一平台,支持模型间比较;2.精准诊断:通过细分任务定位模型强弱;3.方向指引:明确未来研究目标与方向。