Zing 论坛

正文

SIEVES:通过视觉证据评分的选择性预测方法

本文提出SIEVES框架,通过要求推理模型生成局部化视觉证据并学习评估其质量,在5个OOD基准上将覆盖率提升最高3倍,且可迁移至o3和Gemini-3-Pro等专有模型。

选择性预测视觉证据多模态模型OOD泛化模型可靠性视觉问答迁移学习可解释AI
发布时间 2026/04/29 00:57最近活动 2026/04/29 10:46预计阅读 2 分钟
SIEVES:通过视觉证据评分的选择性预测方法
1

章节 01

SIEVES框架导读:基于视觉证据评分的选择性预测新方法

SIEVES核心要点

本文提出SIEVES框架,通过要求推理模型生成局部化视觉证据并评估其质量,在5个分布外(OOD)基准上将覆盖率提升最高3倍,且可迁移至o3和Gemini-3-Pro等专有模型,为多模态模型的可靠部署提供新方案。

2

章节 02

背景:多模态模型的可靠性挑战与选择性预测

多模态模型的现实困境

多模态大语言模型(MLLM)在传统视觉问答基准准确率接近饱和,但面对OOD场景(低质量图像、罕见物体、模糊问题等)时易自信输出错误答案。选择性预测通过为答案分配置信度分数,在风险约束下最大化回答覆盖率,是解决该问题的关键思路。

3

章节 03

SIEVES的核心创新:视觉证据驱动的选择性预测

SIEVES框架的两大组件

SIEVES的关键洞见:可靠答案需伴随可靠视觉证据。框架包含:

  1. 推理模型:生成指向图像相关区域的局部化视觉证据(grounding能力);
  2. 选择器:评估视觉证据的准确性与相关性,而非仅依赖答案置信度。
4

章节 04

实验设置:严苛OOD基准与多模型覆盖

实验设计细节

  • OOD基准:覆盖V*Bench(细粒度理解)、HR-Bench-8k(高分辨率)、MME-RealWorld-Lite(真实场景)、VizWiz(视障用户问题)、AdVQA(对抗性VQA)五大挑战场景;
  • 模型覆盖:Pixel-Reasoner(开源)、o3(OpenAI专有)、Gemini-3-Pro(Google专有),且对专有模型无需内部权重即可迁移。
5

章节 05

核心结果:覆盖率提升3倍及跨模型迁移能力

实验结果亮点

  • 覆盖率提升:相比非grounding基线,5个OOD基准最高实现3倍覆盖率提升;
  • 迁移能力:针对Pixel-Reasoner训练的选择器可直接应用于o3和Gemini-3-Pro,无需额外训练,性能提升显著。
6

章节 06

技术深度:视觉证据为何有效?

视觉证据的价值

  • 超越置信度:传统方法依赖校准不良的模型置信度,视觉证据提供独立可验证信号(如准确指向答案对应的图像区域);
  • 可解释性:系统弃权时可通过证据质量理解原因,回答时提供可追溯依据,增强系统可审计性。
7

章节 07

实践意义与未来研究方向

应用启示与未来探索

  • 部署价值:为MLLM实际部署提供可靠框架,通过"展示工作"提升系统可信度;
  • 专有模型适配:无需微调底层模型即可提升专有API模型的可靠性;
  • 未来方向:扩展至复杂推理任务、因果归因研究、视频/多图像场景等。