章节 01
【导读】Sherlock:VLMs自我纠错推理框架开源(NeurIPS 2025接收)
Sherlock是首个实现视觉语言模型(VLMs)内在自我纠错能力的框架,论文已被NeurIPS 2025接收并开源。该框架仅用20K样本在多个基准测试上取得显著提升,作者为DripNowhy,项目仓库链接:https://github.com/DripNowhy/Sherlock,论文链接:http://arxiv.org/abs/2505.22651,发布于2026年6月4日。
正文
NeurIPS 2025 接收论文 Sherlock 开源实现发布,首个实现视觉语言模型内在自我纠错能力的框架,仅用20K样本在多个基准测试上取得显著提升。
章节 01
Sherlock是首个实现视觉语言模型(VLMs)内在自我纠错能力的框架,论文已被NeurIPS 2025接收并开源。该框架仅用20K样本在多个基准测试上取得显著提升,作者为DripNowhy,项目仓库链接:https://github.com/DripNowhy/Sherlock,论文链接:http://arxiv.org/abs/2505.22651,发布于2026年6月4日。
章节 02
视觉语言模型在图像理解、视觉问答等任务进展迅速,但复杂推理时存在显著瓶颈:现有SFT或RL训练的模型难以实现逐步或整体自我纠错。根源在于训练范式侧重单次推理准确性,忽视模型自我验证与修正能力,如何让VLMs具备类似人类的"反思-修正"能力是关键挑战。
章节 03
Sherlock框架的核心创新包括:1.无需外部提示/多次采样的内在自我纠错机制;2.仅用20K样本的数据高效性;3.三阶段训练流程(监督微调→离线自我改进→在线自我改进);4.跨基准泛化能力。基于Llama3.2-Vision-11B-Instruct构建:
章节 04
使用VLMEvalKit评估框架,覆盖数学推理、科学问答、视觉常识推理等任务。关键发现:现有VLMs普遍缺乏自我纠错能力,Sherlock通过创新框架突破该瓶颈,取得显著提升。模型权重已发布:https://huggingface.co/collections/Tuwhy/sherlock-6835f46e450a48f228f7e80d。
章节 05
基于LLaMA-Factory和VLMEvalKit修改实现:
章节 06
Sherlock论文获NeurIPS 2025接收,标志自我纠错推理在VLMs领域的重要学术价值。项目完全开源,包括训练/评估代码、数据构建流程、模型权重及文档,为社区研究提供支持。启发方向:自我纠错机制设计、数据效率优化、视觉-语言融合推理。
章节 07
Sherlock作为首个内在自我纠错VLMs框架,通过多阶段训练用少量样本实现性能提升,证明自我纠错对推理能力的关键作用。开源资源将推动VLMs向更智能、可靠的推理系统发展,为相关领域研究提供新范式。