# OCRBench：揭示大语言模型中 OCR 能力的隐藏之谜

> 本文介绍 OCRBench 系列基准测试，包括 OCRBench、OCRBench v2 和 MDPBench，用于全面评估大型多模态模型在文本识别、场景文本理解和文档解析等方面的能力。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-02T14:14:31.000Z
- 最近活动: 2026-04-02T14:24:23.981Z
- 热度: 137.8
- 关键词: OCR, multimodal models, benchmark, text recognition, document parsing, multilingual
- 页面链接: https://www.zingnex.cn/forum/thread/ocrbench-ocr
- Canonical: https://www.zingnex.cn/forum/thread/ocrbench-ocr
- Markdown 来源: ingested_event

---

# OCRBench：揭示大语言模型中 OCR 能力的隐藏之谜

光学字符识别（OCR）技术已经发展了几十年，但随着大型多模态模型（Large Multimodal Models, LMMs）的兴起，这一领域正在经历深刻的变革。这些模型不仅能够识别图像中的文字，还能理解文本的语义、回答关于图像文本的问题、提取关键信息。然而，如何全面评估这些模型的 OCR 能力成为一个亟待解决的问题。OCRBench 系列基准测试应运而生，为研究社区提供了系统化的评估工具。

## OCRBench 的诞生背景

传统的 OCR 评估主要关注字符或单词级别的识别准确率，但大型多模态模型的能力远远超出了简单的文本识别。它们可以：

- 理解场景图像中的文本内容并回答相关问题
- 从文档中提取结构化信息
- 识别手写数学公式
- 处理多语言文本

现有的评估基准往往只覆盖其中某一方面，缺乏对模型综合 OCR 能力的全面评估。OCRBench 的设计目标正是填补这一空白，提供一个涵盖多种 OCR 任务的综合性基准。

## OCRBench 核心版本

### OCRBench（初代版本）

初代 OCRBench 是一个全面的评估基准，包含五个核心组件：

#### 1. 文本识别（Text Recognition）

评估模型识别图像中文字的基本能力，包括印刷体和手写体。

#### 2. 场景文本视觉问答（SceneText-Centric VQA）

测试模型理解场景图像中文本并回答相关问题的能力。例如，给定一张商店招牌的照片，模型需要回答"这家店的名字是什么？"

#### 3. 文档导向视觉问答（Document-Oriented VQA）

评估模型对文档图像的理解能力，包括表格、发票、合同等结构化文档。

#### 4. 关键信息提取（Key Information Extraction）

测试模型从文档中提取特定字段的能力，如从发票中提取金额、日期、供应商等信息。

#### 5. 手写数学表达式识别（Handwritten Mathematical Expression Recognition）

评估模型识别和转录手写数学公式的能力，这对教育应用尤为重要。

初代 OCRBench 包含 1000 个问答对，所有答案都经过人工验证和修正，以确保评估的准确性。该基准已被《Science China Information Sciences》期刊接受发表。

### OCRBench v2

基于初代的经验，研究团队开发了 OCRBench v2，这是一个大规模双语以文本为中心的基准，具有以下特点：

#### 更全面的任务覆盖

OCRBench v2 的任务数量是之前多场景基准 OCRBench 的 4 倍，涵盖了更广泛的 OCR 相关任务。

#### 更广泛的场景覆盖

包含 31 种不同的场景，包括：
- 街景文本
- 收据和发票
- 数学公式
- 图表和图示
- 手写文本
- 文档页面

#### 更完善的评估指标

提供更细致的评估指标，能够区分模型在不同难度样本上的表现。

#### 数据规模

包含 10,000 个人工验证的问答对，其中高比例为难样本，确保评估的区分度。

OCRBench v2 已被 NeurIPS 2025 数据集与基准轨道接受。

### MDPBench（多语言文档解析基准）

最新的 MDPBench 专注于多语言文档解析，这是首个针对多语言数字和拍摄文档的基准测试。

#### 研究动机

文档解析技术取得了显著进展，但几乎所有进展都集中在少数主流语言的干净、数字、格式良好的页面上。没有系统的基准来评估模型如何在不同文字系统和低资源语言的数字和拍摄文档上表现。

#### 数据集构成

MDPBench 包含 3,400 张文档图像，涵盖：

- **17 种语言**：简体中文、繁体中文、英语、阿拉伯语、德语、西班牙语、法语、印地语、印尼语、意大利语、日语、韩语、葡萄牙语、俄语、泰语、越南语
- **多样的文字系统**：拉丁字母、汉字、阿拉伯字母、韩文字母等
- **不同的拍摄条件**：包括数字文档和真实世界拍摄文档

#### 数据质量保证

所有注释通过专家模型标注、人工修正和人工验证的严格流程产生。为确保公平比较和防止数据泄露，维护独立的公开和私有评估分割。

#### 关键发现

对开源和闭源模型的全面评估揭示了一个令人震惊的发现：

- **闭源模型**（特别是 Gemini 3-Pro）相对稳健
- **开源模型**在非拉丁文字和真实拍摄文档上性能急剧下降
- 在拍摄文档上平均下降 17.8%
- 在非拉丁文字上平均下降 14.0%

这些结果揭示了跨语言和条件的显著性能不平衡，并为构建更具包容性、可部署的解析系统指明了具体方向。

## 相关数据集资源

OCRBench 项目还维护了一系列相关的 OCR 数据集资源：

### EST-VQA 数据集（CVPR 2020）

英语和中文双语场景文本视觉问答数据集，研究证据的通用价值和双语场景文本理解。

### 斯瓦希里语数据集（ICDAR 2024）

首个斯瓦希里语场景文本检测和识别数据集，支持低资源语言的 OCR 研究。

### 乌尔都语数据集（ICDAR 2024）

乌尔都语自然场景文本检测、识别和视觉问答数据集。

### MTVQA（9 种语言）

多语言以文本为中心的视觉问答基准，涵盖 9 种语言。

### 甲骨文数据集

- **EVOBC**：涵盖六个历史阶段的古文字数据集
- **HUST-OBC**：用于破译甲骨文字符的数据集

## 技术意义与影响

### 推动模型改进

OCRBench 系列基准为研究人员提供了明确的优化目标。通过在多个维度上评估模型，可以识别模型的弱点并有针对性地改进。例如，MDPBench 揭示的开源模型在多语言和拍摄文档上的弱点，为未来的研究指明了方向。

### 促进公平比较

标准化的基准测试使得不同模型之间的比较更加公平和有意义。研究人员可以清楚地了解自己的模型在哪些方面领先，在哪些方面落后。

### 支持工业应用

对于工业界来说，OCRBench 提供了评估模型是否适合特定应用场景的工具。例如，需要处理多语言发票的公司可以使用 MDPBench 来评估不同模型的适用性。

### 揭示研究空白

基准测试的结果往往能够揭示研究社区之前忽视的问题。MDPBench 发现的开源模型在非拉丁文字上的性能差距，就是一个典型的例子。

## 社区集成

OCRBench 已被集成到多个主流的模型评估框架中：

- **lmms-eval**：大型多模态模型评估框架
- **VLMEvalKit**：视觉语言模型评估工具包

这些集成使得研究人员可以方便地将 OCRBench 纳入自己的模型评估流程。

## 未来展望

随着大型多模态模型的快速发展，OCRBench 也在持续演进：

### 更多任务类型

未来的版本可能会包含更多新兴的 OCR 相关任务，如视频文本识别、3D 场景文本理解等。

### 更多语言支持

继续扩展语言覆盖范围，特别是低资源语言和濒危文字系统。

### 更细粒度的评估

开发更细致的评估指标，能够区分模型在字符识别、单词识别、语义理解等不同层次的能力。

### 实时性能评估

除了准确率，未来的基准可能会更多地关注模型的推理速度和资源消耗，这对实际部署至关重要。

## 结语

OCRBench 系列基准测试为大型多模态模型的 OCR 能力评估提供了重要的基础设施。从初代的综合评估到 v2 的大规模扩展，再到 MDPBench 的多语言聚焦，这一项目持续推动着 OCR 领域的研究进展。对于研究人员、开发者和工业界用户来说，OCRBench 都是评估和改进模型不可或缺的工具。随着技术的不断发展，我们期待看到更多突破性的 OCR 模型在这一基准上展现出优异的表现。