Zing 论坛

正文

ChartJudge-2B:开源图表理解评估的小型视觉语言模型裁判

ACL 2025和EMNLP 2025双论文开源项目,提出LVLM-as-a-Judge评估框架,并发布2B参数的ChartJudge模型,以极小体积实现接近GPT-4o的图表理解评估能力。

视觉语言模型图表理解LVLM模型评估ACL 2025EMNLP 2025开源模型多模态AIChartJudge
发布时间 2026/04/20 05:41最近活动 2026/04/20 05:50预计阅读 3 分钟
ChartJudge-2B:开源图表理解评估的小型视觉语言模型裁判
1

章节 01

导读:ChartJudge-2B——小体积开源图表评估模型的突破

ACL 2025和EMNLP 2025双论文开源项目,提出LVLM-as-a-Judge评估框架,并发布2B参数的ChartJudge-2B模型,以极小体积实现接近GPT-4o的图表理解评估能力,平衡成本效益与评估质量。

2

章节 02

研究背景:图表理解评估的痛点

图表理解是视觉语言模型(LVLM)的重要挑战,需准确提取数据、理解趋势等。现有评估依赖人工标注或闭源大模型(如GPT-4),成本高昂。本项目探讨用开源LVLM作为“裁判”评估图表理解任务,构建框架并推出ChartJudge-2B模型。

3

章节 03

核心方法:LVLM-as-a-Judge评估框架详解

多维度评估模式

  • 成对评估:从两个候选回答选更优者
  • 单点评分:1-5分李克特量表评分
  • 有/无参考评估:可选是否提供标准答案

多准则评估维度

  • 事实正确性:数据与图表一致
  • 信息丰富度:回答信息充分性
  • 相关性:与问题相关
  • 多维度综合质量:整体评估

大规模基准测试

在OpenCQA和VisText数据集上进行超10万次判断标注,以GPT-4o和LLaVA-Critic-70B为参考,评估13个开源LVLM(2B-9B参数)。

4

章节 04

ChartJudge-2B:小体积大能力的裁判模型

性能表现

模型 OpenCQA(成对↑) VisText L1(成对↑) VisText L2/L3(成对↑)
Qwen2-VL-2B(基础版) 54.0% 27.2% 3.0%
ChartJudge-2B 61.7% 64.6% 52.3%
LLaVA-Critic-7B 79.5% 79.1% 77.1%
ChartJudge-2B相比基础模型显著提升,VisText L1超7B模型表现。

多准则提示鲁棒性

多准则提示下,7B模型(如LLaVA-Critic)准确率暴跌至近0%,ChartJudge-2B仍保持46.86%准确率。

部署优势

  • 速度:比7B裁判模型快2倍
  • 成本:运行成本低2倍
  • 硬件:可在8GB显存/T4 GPU运行
5

章节 05

关键发现:开源模型的评估潜力与局限

  • 开源模型潜力:部分7B开源LVLM图表评估能力接近GPT-4o(约80%一致性),适合隐私场景。
  • 专用模型局限:ChartGemma、PaliGemma等图表专用模型作为裁判时准确率为0%,专用理解能力≠通用评估能力。
  • 多准则提示双刃剑:提供丰富维度但暴露模型脆弱性,7B模型几乎失效。
  • 跨模型泛化:ChartJudge-2B训练用Gemini-1.5-Pro作参考,评估时用GPT-4o/LLaVA-Critic-70B仍稳定。
  • 人类判断相关性:LLaVA-Critic-70B与人类判断相关性(平均误差距离0.81)超GPT-4o(0.93)。
  • 偏差普遍:所有裁判模型存在位置偏差和长度偏差。
  • 微调力量:PaliGemma-3B微调后VisText成对准确率从0%升至55.9%。
6

章节 06

应用价值:降低成本与推动评估标准化

  • 降低成本:替代GPT-4o,为大规模评估提供经济方案。
  • 隐私场景:本地部署开源模型,适合无法用外部API的企业。
  • 评估标准化:提出成对/单点评分、多维度评估范式及指标,为领域标准化提供参考。
  • 揭示能力边界:对比13+开源LVLM,揭示多准则提示下的脆弱性,指明改进方向。
7

章节 07

开源资源:代码、模型与数据全开放

项目开源内容包括:

  • 完整评估框架实现
  • ChartJudge-2B模型权重
  • 训练数据集(~9.7K单准则 + ~2.8K多准则)
  • 评估脚本和基准测试代码
  • 实验配置和超参数 图表图像数据可通过项目Google Drive链接下载。