Zing 论坛

正文

ChartAct:动态图表理解的新基准

现有图表理解基准测试聚焦静态图表,但真实世界的图表往往是动态交互的。ChartAct基准测试揭示:即使是最强模型Claude-Opus-4.7,在动态图表任务上的成功率也仅为84.5%。

图表理解多模态模型动态交互数据可视化GUI agent状态跟踪多步骤推理
发布时间 2026/05/26 21:15最近活动 2026/05/27 10:30预计阅读 1 分钟
ChartAct:动态图表理解的新基准
1

章节 01

ChartAct基准:动态图表理解的新挑战与现状

现有图表理解基准多聚焦静态图表,但真实世界的图表常为动态交互形式。ChartAct作为新基准,揭示当前AI模型在动态图表任务上的局限:即使最强模型Claude-Opus-4.7,成功率仅84.5%。该基准为评估动态图表理解能力提供重要工具。

2

章节 02

静态与动态图表理解的鸿沟

多模态AI在静态图表理解上进步显著,但真实图表常含悬停提示、点击展开、拖拽调整等动态交互元素。当前AI系统在这类动态任务上表现不尽如人意,静态与动态理解存在明显鸿沟。

3

章节 03

ChartAct基准的设计与核心评估能力

ChartAct从8个真实网站收集673个动态图表(7种类型),构建1440个问答样本,分动态图表和仪表盘两种环境评估。核心能力包括:1.可见内容识别;2.交互选择(悬停/点击等);3.状态推理(多步骤交互后的状态跟踪)。

4

章节 04

实验结果:顶尖模型仍有显著局限

对11个模型评估发现:Claude-Opus-4.7成功率84.5%,多数模型低于60%;简单交互表现较好,但多步骤任务(如筛选+对比)成功率常低于30%;仪表盘环境(多图表联动)表现显著更差。

5

章节 05

失败案例:动态理解的主要瓶颈

失败案例归因三类问题:1.交互选择错误(选不可点击元素或无效操作);2.状态跟踪失败(交互后未更新认知);3.过早终止(未获取完整信息就作答)。

6

章节 06

ChartAct的启示与未来方向

动态图表理解需专门训练交互选择、状态跟踪、多步骤规划能力;AI需提升GUI理解(含多图表联动);应用场景包括商业智能、科研、新闻等。当前技术需人类监督,未来需突破多步骤推理瓶颈。