正文

ChartJudge-2B：开源图表理解评估的小型视觉语言模型裁判

ACL 2025和EMNLP 2025双论文开源项目，提出LVLM-as-a-Judge评估框架，并发布2B参数的ChartJudge模型，以极小体积实现接近GPT-4o的图表理解评估能力。

视觉语言模型图表理解LVLM模型评估ACL 2025EMNLP 2025开源模型多模态AIChartJudge

发布时间 2026/04/20 05:41最近活动 2026/04/20 05:50预计阅读 3 分钟

章节 01

导读：ChartJudge-2B——小体积开源图表评估模型的突破

ACL 2025和EMNLP 2025双论文开源项目，提出LVLM-as-a-Judge评估框架，并发布2B参数的ChartJudge-2B模型，以极小体积实现接近GPT-4o的图表理解评估能力，平衡成本效益与评估质量。

章节 02

研究背景：图表理解评估的痛点

图表理解是视觉语言模型（LVLM）的重要挑战，需准确提取数据、理解趋势等。现有评估依赖人工标注或闭源大模型（如GPT-4），成本高昂。本项目探讨用开源LVLM作为“裁判”评估图表理解任务，构建框架并推出ChartJudge-2B模型。

章节 03

核心方法：LVLM-as-a-Judge评估框架详解

多维度评估模式

成对评估：从两个候选回答选更优者
单点评分：1-5分李克特量表评分
有/无参考评估：可选是否提供标准答案

多准则评估维度

事实正确性：数据与图表一致
信息丰富度：回答信息充分性
相关性：与问题相关
多维度综合质量：整体评估

大规模基准测试

在OpenCQA和VisText数据集上进行超10万次判断标注，以GPT-4o和LLaVA-Critic-70B为参考，评估13个开源LVLM（2B-9B参数）。

章节 04

ChartJudge-2B：小体积大能力的裁判模型

性能表现

模型	OpenCQA（成对↑）	VisText L1（成对↑）	VisText L2/L3（成对↑）
Qwen2-VL-2B（基础版）	54.0%	27.2%	3.0%
ChartJudge-2B	61.7%	64.6%	52.3%
LLaVA-Critic-7B	79.5%	79.1%	77.1%
ChartJudge-2B相比基础模型显著提升，VisText L1超7B模型表现。

多准则提示鲁棒性

多准则提示下，7B模型（如LLaVA-Critic）准确率暴跌至近0%，ChartJudge-2B仍保持46.86%准确率。

部署优势

速度：比7B裁判模型快2倍
成本：运行成本低2倍
硬件：可在8GB显存/T4 GPU运行

章节 05

关键发现：开源模型的评估潜力与局限

开源模型潜力：部分7B开源LVLM图表评估能力接近GPT-4o（约80%一致性），适合隐私场景。
专用模型局限：ChartGemma、PaliGemma等图表专用模型作为裁判时准确率为0%，专用理解能力≠通用评估能力。
多准则提示双刃剑：提供丰富维度但暴露模型脆弱性，7B模型几乎失效。
跨模型泛化：ChartJudge-2B训练用Gemini-1.5-Pro作参考，评估时用GPT-4o/LLaVA-Critic-70B仍稳定。
人类判断相关性：LLaVA-Critic-70B与人类判断相关性（平均误差距离0.81）超GPT-4o（0.93）。
偏差普遍：所有裁判模型存在位置偏差和长度偏差。
微调力量：PaliGemma-3B微调后VisText成对准确率从0%升至55.9%。

章节 06

应用价值：降低成本与推动评估标准化

降低成本：替代GPT-4o，为大规模评估提供经济方案。
隐私场景：本地部署开源模型，适合无法用外部API的企业。
评估标准化：提出成对/单点评分、多维度评估范式及指标，为领域标准化提供参考。
揭示能力边界：对比13+开源LVLM，揭示多准则提示下的脆弱性，指明改进方向。

章节 07

开源资源：代码、模型与数据全开放

项目开源内容包括：

完整评估框架实现
ChartJudge-2B模型权重
训练数据集（~9.7K单准则 + ~2.8K多准则）
评估脚本和基准测试代码
实验配置和超参数图表图像数据可通过项目Google Drive链接下载。