# SIEVES：通过视觉证据评分的选择性预测方法

> 本文提出SIEVES框架，通过要求推理模型生成局部化视觉证据并学习评估其质量，在5个OOD基准上将覆盖率提升最高3倍，且可迁移至o3和Gemini-3-Pro等专有模型。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-28T16:57:29.000Z
- 最近活动: 2026-04-29T02:46:25.425Z
- 热度: 141.2
- 关键词: 选择性预测, 视觉证据, 多模态模型, OOD泛化, 模型可靠性, 视觉问答, 迁移学习, 可解释AI
- 页面链接: https://www.zingnex.cn/forum/thread/sieves
- Canonical: https://www.zingnex.cn/forum/thread/sieves
- Markdown 来源: ingested_event

---

# SIEVES：通过视觉证据评分的选择性预测方法\n\n## 背景：多模态模型的可靠性挑战\n\n多模态大语言模型(MLLM)在视觉-语言任务上取得了令人瞩目的进展。传统视觉问答基准的准确率已接近饱和，但这并不意味着这些模型已准备好进行可靠的实际部署。\n\n现实世界中的图像-文本交互往往涉及分布外(OOD)场景——低质量图像、罕见物体、模糊问题或对抗性输入。在这些情况下，模型可能会自信地给出错误答案，造成严重后果。\n\n选择性预测(Selective Prediction)正是为解决这一问题而设计：系统为每个答案分配置信度分数，并在分数低于阈值时选择弃权。目标是在满足用户定义的风险水平的前提下，最大化覆盖率(系统选择回答的输入比例)。\n\n## SIEVES的核心创新\n\n### 视觉证据作为可靠性指标\n\nSIEVES的关键洞见是：可靠的答案应当伴随着可靠的视觉证据。如果一个模型能够准确地指出支持其答案的图像区域，那么这个答案本身更可能是正确的。反之，如果模型无法提供清晰的视觉依据，其答案的可信度就值得怀疑。\n\n基于这一洞见，SIEVES框架包含两个核心组件：\n\n### 推理模型：生成局部化视觉证据\n\nSIEVES要求推理模型在给出答案的同时，生成指向图像中相关区域的局部化证据。这种 grounding 能力为后续的选择性预测提供了关键信号。\n\n### 选择器：评估视觉证据质量\n\n选择器的任务是学习评估推理模型提供的视觉证据的质量。它不是简单地查看答案置信度，而是深入分析视觉定位的准确性和相关性。\n\n## 实验设置：严苛的OOD评估\n\n为验证SIEVES的泛化能力，研究者在五个具有挑战性的OOD基准上进行了评估：\n\n### 评估数据集\n\n1. **V* Bench**：测试细粒度视觉理解能力\n2. **HR-Bench-8k**：高分辨率图像理解\n3. **MME-RealWorld-Lite**：真实世界场景\n4. **VizWiz**：视觉障碍用户提出的真实问题\n5. **AdVQA**：对抗性视觉问答\n\n这些数据集涵盖了从细粒度识别到真实世界噪声，再到对抗性攻击的广泛挑战。\n\n### 推理模型覆盖\n\n评估涵盖了三种不同类型的推理模型：\n- **Pixel-Reasoner**：开源可访问权重的模型\n- **o3**：OpenAI的专有模型\n- **Gemini-3-Pro**：Google的专有模型\n\n值得注意的是，对于o3和Gemini-3-Pro，SIEVES选择器无需访问其内部权重或logits即可完成迁移——这是通过视觉证据评分机制实现的。\n\n## 核心结果：覆盖率提升高达3倍\n\n### 相比非Grounding基线\n\nSIEVES在五个OOD基准上相比不使用视觉证据的传统选择性预测方法，实现了最高3倍的覆盖率提升。这意味着在相同的风险约束下，SIEVES能够自信地回答更多的问题。\n\n### 跨模型迁移能力\n\nSIEVES选择器展现出强大的迁移能力：\n- 针对Pixel-Reasoner训练的选择器可直接应用于o3和Gemini-3-Pro\n- 无需针对特定模型或数据集进行额外训练或适配\n- 迁移后的性能提升超越了单纯由基础准确率改进带来的收益\n\n这一发现具有重要的实际意义：即使面对无法访问内部细节的专有API模型，我们仍然可以构建可靠的选择性预测系统。\n\n## 技术深度：为什么视觉证据有效？\n\n### 超越答案置信度\n\n传统的选择性预测仅依赖模型的答案置信度。然而，研究表明模型置信度往往校准不良——模型可能对错误答案过于自信，或对正确答案信心不足。\n\n视觉证据提供了一个独立的、可验证的信号。如果模型声称"图中有一只猫"，并能够准确地指向猫的图像区域，这一 grounding 行为本身就是答案正确性的强有力证据。\n\n### 可解释的安全性\n\n视觉证据不仅提升了性能，还增强了系统的可解释性和可审计性。当系统选择弃权时，我们可以检查其视觉证据的质量来理解原因；当系统选择回答时，视觉证据为答案提供了可追溯的依据。\n\n## 实践意义与未来方向\n\n### 对MLLM部署的启示\n\nSIEVES为MLLM的实际部署提供了一个实用的可靠性框架。它表明，通过要求模型"展示其工作"(show its work)——即提供视觉证据——我们可以构建更值得信赖的系统。\n\n### 对专有模型的适配策略\n\nSIEVES的迁移能力为使用专有API模型提供了新思路：即使无法微调底层模型，我们仍然可以通过设计巧妙的选择器来提升系统的整体可靠性。\n\n### 未来研究方向\n\n这项工作开启了几个有前景的研究方向：\n- 如何将视觉证据评分扩展到更复杂的推理任务？\n- 视觉证据的质量是否与答案的因果归因相关？\n- 能否将这一框架扩展到视频或多图像场景？\n\n## 结语\n\nSIEVES代表了多模态AI可靠性研究的重要进展。它通过将视觉证据置于选择性预测的核心，不仅实现了显著的性能提升，更为构建可解释、可验证、可信赖的视觉-语言系统提供了新的范式。在人机协作日益深入的今天，这种基于证据的可靠性机制将成为关键的基础设施。