# FinDocMRE：面向文档级金融多模态推理评估的基准测试

> 本文介绍了 FinDocMRE 基准，包含来自 2,878 份财务报告的 12,207 个样本，在五种任务类型上评估大型多模态模型的文档级推理能力，结果显示没有任何模型的总体得分超过 65 分。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-18T07:18:01.000Z
- 最近活动: 2026-05-19T03:30:12.618Z
- 热度: 126.8
- 关键词: 金融AI, 多模态推理, 基准测试, 文档理解, 数值推理, 财务报告
- 页面链接: https://www.zingnex.cn/forum/thread/findocmre
- Canonical: https://www.zingnex.cn/forum/thread/findocmre
- Markdown 来源: ingested_event

---

# FinDocMRE：面向文档级金融多模态推理评估的基准测试

## 引言

大型多模态模型（LMM）在通用视觉任务上已经取得了令人瞩目的成绩，但当它们被部署到专业的金融场景中时，表现却远远不尽如人意。2026年5月发表的 FinDocMRE 论文揭示了一个关键问题：现有的金融基准测试过于关注孤立的图表，而忽视了在综合金融文档中整合文本、表格和图像数据的复杂需求。为此，研究团队构建了一个多图像文档级基准测试——FinDocMRE——来评估和推动金融领域多模态推理能力的发展。

## 为什么需要文档级金融基准？

金融分析的本质决定了它需要处理复杂的文档级信息：

- **多源信息整合**：一份完整的财务报告通常包含文字叙述、数据表格、统计图表、组织结构图等多种形式的信息。专业的金融分析师需要跨这些不同形式的信息源进行综合推理。

- **跨页面关联**：关键信息往往分散在文档的不同页面甚至不同的文档中。例如，利润表中的数据可能需要与附注中的解释性文字进行交叉验证。

- **领域专业知识**：金融文档包含大量领域特定的术语、格式和分析框架，模型需要理解这些专业知识才能做出准确的推理。

然而，现有的基准测试大多只评估模型对单个图表的理解能力，无法反映上述文档级推理的复杂性。FinDocMRE 正是为了填补这一空白而设计的。

## FinDocMRE 的构建方法

### 数据来源

FinDocMRE 的数据来源于 2,878 份真实的财务报告，涵盖了十二个金融领域。这些报告包括年度报告、季度报告、招股说明书等常见的金融文档类型。

### 半自动化构建流程

研究团队采用了一种半自动化的数据构建流程，结合了两种方法：

1. **视觉中心生成（Visual-Centric Generation）**：以文档中的视觉元素（图表、表格等）为中心，自动生成相关的推理问题和答案。这种方法确保了视觉信息在数据中的核心地位，避免了纯文本主导的偏差。

2. **专家验证（Expert Verification）**：所有自动生成的样本都经过金融领域专家的审查和验证，确保问题的准确性、合理性和难度适当性。

这种半自动化流程在数据规模和质量之间取得了良好的平衡：既保证了足够的数据量（12,207 个样本），又确保了高质量的标注。

## 评估任务设计

FinDocMRE 设计了五种不同的任务类型，全面评估模型的多模态推理能力：

### 1. 语义叙事构建（Semantic Narrative Construction）

评估模型根据视觉信息生成连贯的文字描述和解释的能力。例如，根据财务报告中的趋势图表，描述公司的业绩变化趋势。

### 2. 数值估算（Numerical Estimation）

评估模型从图表和表格中提取和估算数值信息的能力。例如，根据柱状图估算某个财年的具体收入数值。

### 3. 跨页面视觉定位（Cross-Page Visual Grounding）

评估模型在文档的多个页面之间定位和关联视觉信息的能力。例如，找到利润表中的数据在附注中的对应解释。

### 4. 多图像推理（Multi-Image Reasoning）

评估模型同时处理和理解多个图像信息的能力。例如，综合分析收入图表和成本图表来评估公司的盈利能力。

### 5. 文档级理解（Document-Level Understanding）

评估模型对整个文档的结构和内容进行全面理解的能力。例如，基于文档的多个部分回答复杂的综合分析问题。

## 实验结果：模型能力的真实水平

研究团队对十一个代表性 LMM 进行了全面评估，结果揭示了当前模型在金融多模态推理方面的真实水平：

### 总体表现

- **没有模型的总体得分超过 65 分**（满分 100）。这一结果说明，当前的大型多模态模型在金融文档级推理方面仍然面临巨大的挑战。

### 任务间的性能分化

- **语义叙事构建任务**：模型表现相对较好。这表明模型在生成描述性文字方面已经具备了一定的能力。

- **数值估算任务**：模型表现明显较差。从图表中精确提取和估算数值仍然是一个未解决的难题。

- **跨页面视觉定位任务**：模型表现同样不理想。在文档的多个页面之间定位和关联信息的能力严重不足。

这种性能分化揭示了一个有趣的现象：模型擅长"讲故事"（生成描述性文字），但不擅长"算数字"（精确数值推理）和"找关联"（跨文档信息定位）。

## 对金融 AI 应用的启示

FinDocMRE 的发现对金融领域的 AI 应用具有重要的启示：

### 1. 金融 AI 仍处于早期阶段

当前模型在 FinDocMRE 上的表现说明，将多模态 AI 直接应用于金融文档分析仍然为时过早。模型需要进一步的训练和改进才能达到专业水平。

### 2. 数值推理是核心瓶颈

数值估算任务的低分表明，提升模型的数值推理能力是金融 AI 发展的关键。这可能需要在训练数据中增加更多的数值推理样本，或者设计专门的数值推理模块。

### 3. 跨文档理解需要架构创新

跨页面视觉定位的低分说明，现有的多模态架构在处理跨文档信息关联方面存在根本性的局限。可能需要新的架构设计来支持更大范围的文档级信息整合。

## 基准测试的意义

FinDocMRE 作为第一个面向文档级金融多模态推理的基准测试，具有以下重要意义：

- **标准化评估**：为金融多模态模型提供了一个标准化的评估平台，使不同模型之间的比较成为可能。

- **精准诊断**：通过五种不同任务类型的细分评估，帮助研究者精准定位模型的 strengths 和 weaknesses。

- **方向指引**：为金融多模态模型的未来发展提供了明确的方向和目标。

## 结语

FinDocMRE 揭示了当前大型多模态模型在金融文档级推理方面的真实水平：模型在语义叙事方面已经展现出了一定的能力，但在数值估算和跨文档视觉定位方面仍有巨大的提升空间。"没有模型的总体得分超过 65 分"这一结果，既是对当前能力的客观描述，也是对未来研究的激励。

随着金融行业的数字化转型加速，对能够理解和推理金融文档的 AI 系统的需求将日益增长。FinDocMRE 为这一领域的研究提供了一个坚实的起点，也将成为衡量未来进展的重要标尺。

## 参考

- 论文地址：http://arxiv.org/abs/2605.17962v1
- 发布日期：2026年5月18日
