正文

ChartAct：动态图表理解的新基准

现有图表理解基准测试聚焦静态图表，但真实世界的图表往往是动态交互的。ChartAct基准测试揭示：即使是最强模型Claude-Opus-4.7，在动态图表任务上的成功率也仅为84.5%。

图表理解多模态模型动态交互数据可视化GUI agent状态跟踪多步骤推理

发布时间 2026/05/26 21:15最近活动 2026/05/27 10:30预计阅读 1 分钟

章节 01

ChartAct基准：动态图表理解的新挑战与现状

现有图表理解基准多聚焦静态图表，但真实世界的图表常为动态交互形式。ChartAct作为新基准，揭示当前AI模型在动态图表任务上的局限：即使最强模型Claude-Opus-4.7，成功率仅84.5%。该基准为评估动态图表理解能力提供重要工具。

章节 02

多模态AI在静态图表理解上进步显著，但真实图表常含悬停提示、点击展开、拖拽调整等动态交互元素。当前AI系统在这类动态任务上表现不尽如人意，静态与动态理解存在明显鸿沟。

章节 03

ChartAct从8个真实网站收集673个动态图表（7种类型），构建1440个问答样本，分动态图表和仪表盘两种环境评估。核心能力包括：1.可见内容识别；2.交互选择（悬停/点击等）；3.状态推理（多步骤交互后的状态跟踪）。

章节 04

对11个模型评估发现：Claude-Opus-4.7成功率84.5%，多数模型低于60%；简单交互表现较好，但多步骤任务（如筛选+对比）成功率常低于30%；仪表盘环境（多图表联动）表现显著更差。

章节 05

失败案例归因三类问题：1.交互选择错误（选不可点击元素或无效操作）；2.状态跟踪失败（交互后未更新认知）；3.过早终止（未获取完整信息就作答）。

章节 06

动态图表理解需专门训练交互选择、状态跟踪、多步骤规划能力；AI需提升GUI理解（含多图表联动）；应用场景包括商业智能、科研、新闻等。当前技术需人类监督，未来需突破多步骤推理瓶颈。