章节 01
【主楼】FinDocMRE基准测试:金融文档级多模态推理的新评估标准
FinDocMRE是面向文档级金融多模态推理评估的基准测试,数据来源于2878份财务报告(覆盖12个金融领域),包含12207个样本。该基准设计了五种任务类型,评估大型多模态模型(LMM)的文档级推理能力。实验结果显示,当前没有任何模型的总体得分超过65分(满分100),揭示了LMM在金融场景下的显著挑战。
正文
本文介绍了 FinDocMRE 基准,包含来自 2,878 份财务报告的 12,207 个样本,在五种任务类型上评估大型多模态模型的文档级推理能力,结果显示没有任何模型的总体得分超过 65 分。
章节 01
FinDocMRE是面向文档级金融多模态推理评估的基准测试,数据来源于2878份财务报告(覆盖12个金融领域),包含12207个样本。该基准设计了五种任务类型,评估大型多模态模型(LMM)的文档级推理能力。实验结果显示,当前没有任何模型的总体得分超过65分(满分100),揭示了LMM在金融场景下的显著挑战。
章节 02
金融分析需处理文档级复杂信息,包括多源信息整合(文字、表格、图像等)、跨页面关联(如利润表与附注交叉验证)、领域专业知识理解。但现有金融基准多关注孤立图表,无法反映文档级推理的复杂性。FinDocMRE旨在填补这一空白,推动金融领域多模态推理能力发展。
章节 03
数据来源为2878份真实财务报告(年度/季度报告、招股说明书等)。构建采用半自动化流程:1.视觉中心生成:以视觉元素(图表、表格)为中心自动生成推理问题与答案;2.专家验证:所有样本经金融专家审查,确保准确性与合理性。该流程平衡了数据规模(12207样本)与质量。
章节 04
设计五种任务全面评估多模态推理能力:1.语义叙事构建:根据视觉信息生成连贯文字描述;2.数值估算:从图表/表格提取估算数值;3.跨页面视觉定位:跨页面关联视觉信息;4.多图像推理:同时处理多个图像信息;5.文档级理解:全面理解文档结构与内容。
章节 05
对11个代表性LMM评估发现:1.总体表现:无模型得分超65分;2.任务分化:语义叙事构建表现较好,数值估算、跨页面视觉定位表现较差。说明模型擅长"讲故事",但在精确数值推理和跨文档关联上存在不足。
章节 06
1.金融AI仍处早期,直接应用于文档分析为时过早;2.数值推理是核心瓶颈,需增加数值样本或设计专门模块;3.跨文档理解需架构创新,现有架构难以支持大范围信息整合。
章节 07
作为首个文档级金融多模态推理基准,其意义包括:1.标准化评估:提供统一平台,支持模型间比较;2.精准诊断:通过细分任务定位模型强弱;3.方向指引:明确未来研究目标与方向。