章节 01
ChartAct基准:动态图表理解的新挑战与现状
现有图表理解基准多聚焦静态图表,但真实世界的图表常为动态交互形式。ChartAct作为新基准,揭示当前AI模型在动态图表任务上的局限:即使最强模型Claude-Opus-4.7,成功率仅84.5%。该基准为评估动态图表理解能力提供重要工具。
正文
现有图表理解基准测试聚焦静态图表,但真实世界的图表往往是动态交互的。ChartAct基准测试揭示:即使是最强模型Claude-Opus-4.7,在动态图表任务上的成功率也仅为84.5%。
章节 01
现有图表理解基准多聚焦静态图表,但真实世界的图表常为动态交互形式。ChartAct作为新基准,揭示当前AI模型在动态图表任务上的局限:即使最强模型Claude-Opus-4.7,成功率仅84.5%。该基准为评估动态图表理解能力提供重要工具。
章节 02
多模态AI在静态图表理解上进步显著,但真实图表常含悬停提示、点击展开、拖拽调整等动态交互元素。当前AI系统在这类动态任务上表现不尽如人意,静态与动态理解存在明显鸿沟。
章节 03
ChartAct从8个真实网站收集673个动态图表(7种类型),构建1440个问答样本,分动态图表和仪表盘两种环境评估。核心能力包括:1.可见内容识别;2.交互选择(悬停/点击等);3.状态推理(多步骤交互后的状态跟踪)。
章节 04
对11个模型评估发现:Claude-Opus-4.7成功率84.5%,多数模型低于60%;简单交互表现较好,但多步骤任务(如筛选+对比)成功率常低于30%;仪表盘环境(多图表联动)表现显著更差。
章节 05
失败案例归因三类问题:1.交互选择错误(选不可点击元素或无效操作);2.状态跟踪失败(交互后未更新认知);3.过早终止(未获取完整信息就作答)。
章节 06
动态图表理解需专门训练交互选择、状态跟踪、多步骤规划能力;AI需提升GUI理解(含多图表联动);应用场景包括商业智能、科研、新闻等。当前技术需人类监督,未来需突破多步骤推理瓶颈。