章节 01
导读:ChartJudge-2B——小体积开源图表评估模型的突破
ACL 2025和EMNLP 2025双论文开源项目,提出LVLM-as-a-Judge评估框架,并发布2B参数的ChartJudge-2B模型,以极小体积实现接近GPT-4o的图表理解评估能力,平衡成本效益与评估质量。
正文
ACL 2025和EMNLP 2025双论文开源项目,提出LVLM-as-a-Judge评估框架,并发布2B参数的ChartJudge模型,以极小体积实现接近GPT-4o的图表理解评估能力。
章节 01
ACL 2025和EMNLP 2025双论文开源项目,提出LVLM-as-a-Judge评估框架,并发布2B参数的ChartJudge-2B模型,以极小体积实现接近GPT-4o的图表理解评估能力,平衡成本效益与评估质量。
章节 02
图表理解是视觉语言模型(LVLM)的重要挑战,需准确提取数据、理解趋势等。现有评估依赖人工标注或闭源大模型(如GPT-4),成本高昂。本项目探讨用开源LVLM作为“裁判”评估图表理解任务,构建框架并推出ChartJudge-2B模型。
章节 03
在OpenCQA和VisText数据集上进行超10万次判断标注,以GPT-4o和LLaVA-Critic-70B为参考,评估13个开源LVLM(2B-9B参数)。
章节 04
| 模型 | OpenCQA(成对↑) | VisText L1(成对↑) | VisText L2/L3(成对↑) |
|---|---|---|---|
| Qwen2-VL-2B(基础版) | 54.0% | 27.2% | 3.0% |
| ChartJudge-2B | 61.7% | 64.6% | 52.3% |
| LLaVA-Critic-7B | 79.5% | 79.1% | 77.1% |
| ChartJudge-2B相比基础模型显著提升,VisText L1超7B模型表现。 |
多准则提示下,7B模型(如LLaVA-Critic)准确率暴跌至近0%,ChartJudge-2B仍保持46.86%准确率。
章节 05
章节 06
章节 07
项目开源内容包括: