正文

SIEVES：通过视觉证据评分的选择性预测方法

本文提出SIEVES框架，通过要求推理模型生成局部化视觉证据并学习评估其质量，在5个OOD基准上将覆盖率提升最高3倍，且可迁移至o3和Gemini-3-Pro等专有模型。

选择性预测视觉证据多模态模型OOD泛化模型可靠性视觉问答迁移学习可解释AI

发布时间 2026/04/29 00:57最近活动 2026/04/29 10:46预计阅读 2 分钟

章节 01

SIEVES框架导读：基于视觉证据评分的选择性预测新方法

SIEVES核心要点

本文提出SIEVES框架，通过要求推理模型生成局部化视觉证据并评估其质量，在5个分布外(OOD)基准上将覆盖率提升最高3倍，且可迁移至o3和Gemini-3-Pro等专有模型，为多模态模型的可靠部署提供新方案。

章节 02

背景：多模态模型的可靠性挑战与选择性预测

多模态模型的现实困境

多模态大语言模型(MLLM)在传统视觉问答基准准确率接近饱和，但面对OOD场景（低质量图像、罕见物体、模糊问题等）时易自信输出错误答案。选择性预测通过为答案分配置信度分数，在风险约束下最大化回答覆盖率，是解决该问题的关键思路。

章节 03

SIEVES的核心创新：视觉证据驱动的选择性预测

SIEVES框架的两大组件

SIEVES的关键洞见：可靠答案需伴随可靠视觉证据。框架包含：

推理模型：生成指向图像相关区域的局部化视觉证据（grounding能力）；
选择器：评估视觉证据的准确性与相关性，而非仅依赖答案置信度。

章节 04

实验设置：严苛OOD基准与多模型覆盖

实验设计细节

OOD基准：覆盖V*Bench（细粒度理解）、HR-Bench-8k（高分辨率）、MME-RealWorld-Lite（真实场景）、VizWiz（视障用户问题）、AdVQA（对抗性VQA）五大挑战场景；
模型覆盖：Pixel-Reasoner（开源）、o3（OpenAI专有）、Gemini-3-Pro（Google专有），且对专有模型无需内部权重即可迁移。

章节 05

核心结果：覆盖率提升3倍及跨模型迁移能力

实验结果亮点

覆盖率提升：相比非grounding基线，5个OOD基准最高实现3倍覆盖率提升；
迁移能力：针对Pixel-Reasoner训练的选择器可直接应用于o3和Gemini-3-Pro，无需额外训练，性能提升显著。

章节 06

技术深度：视觉证据为何有效？

视觉证据的价值

超越置信度：传统方法依赖校准不良的模型置信度，视觉证据提供独立可验证信号（如准确指向答案对应的图像区域）；
可解释性：系统弃权时可通过证据质量理解原因，回答时提供可追溯依据，增强系统可审计性。

章节 07

实践意义与未来研究方向

应用启示与未来探索

部署价值：为MLLM实际部署提供可靠框架，通过"展示工作"提升系统可信度；
专有模型适配：无需微调底层模型即可提升专有API模型的可靠性；
未来方向：扩展至复杂推理任务、因果归因研究、视频/多图像场景等。