章节 01
SIEVES框架导读:基于视觉证据评分的选择性预测新方法
SIEVES核心要点
本文提出SIEVES框架,通过要求推理模型生成局部化视觉证据并评估其质量,在5个分布外(OOD)基准上将覆盖率提升最高3倍,且可迁移至o3和Gemini-3-Pro等专有模型,为多模态模型的可靠部署提供新方案。
正文
本文提出SIEVES框架,通过要求推理模型生成局部化视觉证据并学习评估其质量,在5个OOD基准上将覆盖率提升最高3倍,且可迁移至o3和Gemini-3-Pro等专有模型。
章节 01
本文提出SIEVES框架,通过要求推理模型生成局部化视觉证据并评估其质量,在5个分布外(OOD)基准上将覆盖率提升最高3倍,且可迁移至o3和Gemini-3-Pro等专有模型,为多模态模型的可靠部署提供新方案。
章节 02
多模态大语言模型(MLLM)在传统视觉问答基准准确率接近饱和,但面对OOD场景(低质量图像、罕见物体、模糊问题等)时易自信输出错误答案。选择性预测通过为答案分配置信度分数,在风险约束下最大化回答覆盖率,是解决该问题的关键思路。
章节 03
SIEVES的关键洞见:可靠答案需伴随可靠视觉证据。框架包含:
章节 04
章节 05
章节 06
章节 07