正文

SCICON：消除科学图表多选题中的选择偏差

研究团队提出SCICON解码方法，通过对比图像条件和非图像条件的模型输出，消除多选题中选项本身对模型的先验引导，提升科学图表问答的准确性

多模态学习科学图表理解对比解码多选题问答视觉问答大语言模型偏差消除人工智能教育

发布时间 2026/03/30 12:38最近活动 2026/03/31 11:50预计阅读 1 分钟

章节 01

SCICON：消除科学图表多选题选择偏差的新方法导读

科学图表理解是多模态AI领域的挑战，多选题选项本身的先验引导易导致模型忽略图像证据产生偏差。研究团队提出SCICON解码方法，通过对比图像条件与非图像条件下的模型输出，消除选择诱导偏差，提升科学图表问答准确性。

章节 02

选择诱导偏差指模型过度依赖多选题选项的语义信息（如科学术语），而非基于图像内容判断，出现"不看图蒙对"现象。在科学领域，此偏差会导致模型忽略图表中的精确量化信息或细微结构，产生错误答案。

章节 03

SCICON是无需额外训练的解码方法，核心思想为：用图像条件下的答案得分减去纯文本条件下的得分，分离文本先验与视觉证据贡献。与现有对比解码方法不同，SCICON直接对比有无图像条件，而非扰动输入。

章节 04

在三个科学图表问答基准测试（含统计图表、显微镜图像等）及三种模型架构上，SCICON稳定提升准确性；不依赖特定模型架构，具有普适性；推理时需两次前向传播（约两倍开销），但在高准确性需求场景可接受。

章节 05

SCICON揭示多模态任务中模态信息冲突问题；展示"无训练"优化思路（推理阶段通过解码策略提升性能）；强调任务特定优化的重要性，针对多选题结构设计的策略能挖掘更大性能潜力。

章节 06

应用场景：科学教育（智能辅导系统）、科研辅助（文献阅读助手）。局限性：仅适用于多选题场景，对开放式问答/生成任务不直接适用；两次前向传播的计算开销可能影响实时响应场景。