Zing 论坛

正文

Sherlock:视觉语言模型的自我纠错推理框架

NeurIPS 2025 接收论文 Sherlock 开源实现发布,首个实现视觉语言模型内在自我纠错能力的框架,仅用20K样本在多个基准测试上取得显著提升。

Sherlock视觉语言模型自我纠错推理NeurIPS 2025VLMLLaVA-CoT多阶段训练自我改进
发布时间 2026/06/04 14:55最近活动 2026/06/04 15:24预计阅读 3 分钟
Sherlock:视觉语言模型的自我纠错推理框架
2

章节 02

背景:VLMs推理能力的核心瓶颈——缺乏自我纠错

视觉语言模型在图像理解、视觉问答等任务进展迅速,但复杂推理时存在显著瓶颈:现有SFT或RL训练的模型难以实现逐步或整体自我纠错。根源在于训练范式侧重单次推理准确性,忽视模型自我验证与修正能力,如何让VLMs具备类似人类的"反思-修正"能力是关键挑战。

3

章节 03

Sherlock框架:内在自我纠错的多阶段训练方案

Sherlock框架的核心创新包括:1.无需外部提示/多次采样的内在自我纠错机制;2.仅用20K样本的数据高效性;3.三阶段训练流程(监督微调→离线自我改进→在线自我改进);4.跨基准泛化能力。基于Llama3.2-Vision-11B-Instruct构建:

  • 阶段1:用LLaVA-CoT 20K样本监督微调,掌握基础推理能力;
  • 阶段2:离线自我生成数据训练,学习错误恢复策略;
  • 阶段3:在线用问题和图像构建5K偏好数据,动态调整推理策略。
4

章节 04

实验证据:多基准性能突破自我纠错瓶颈

使用VLMEvalKit评估框架,覆盖数学推理、科学问答、视觉常识推理等任务。关键发现:现有VLMs普遍缺乏自我纠错能力,Sherlock通过创新框架突破该瓶颈,取得显著提升。模型权重已发布:https://huggingface.co/collections/Tuwhy/sherlock-6835f46e450a48f228f7e80d。

5

章节 05

使用指南:环境准备与代码实现

基于LLaMA-Factory和VLMEvalKit修改实现:

6

章节 06

项目影响:学术认可与开源贡献

Sherlock论文获NeurIPS 2025接收,标志自我纠错推理在VLMs领域的重要学术价值。项目完全开源,包括训练/评估代码、数据构建流程、模型权重及文档,为社区研究提供支持。启发方向:自我纠错机制设计、数据效率优化、视觉-语言融合推理。

7

章节 07

总结:Sherlock的突破与未来价值

Sherlock作为首个内在自我纠错VLMs框架,通过多阶段训练用少量样本实现性能提升,证明自我纠错对推理能力的关键作用。开源资源将推动VLMs向更智能、可靠的推理系统发展,为相关领域研究提供新范式。