正文

Sherlock：视觉语言模型的自我纠错推理框架

NeurIPS 2025 接收论文 Sherlock 开源实现发布，首个实现视觉语言模型内在自我纠错能力的框架，仅用20K样本在多个基准测试上取得显著提升。

Sherlock视觉语言模型自我纠错推理NeurIPS 2025VLMLLaVA-CoT多阶段训练自我改进

发布时间 2026/06/04 14:55最近活动 2026/06/04 15:24预计阅读 3 分钟

章节 01

【导读】Sherlock：VLMs自我纠错推理框架开源（NeurIPS 2025接收）

Sherlock是首个实现视觉语言模型（VLMs）内在自我纠错能力的框架，论文已被NeurIPS 2025接收并开源。该框架仅用20K样本在多个基准测试上取得显著提升，作者为DripNowhy，项目仓库链接：https://github.com/DripNowhy/Sherlock，论文链接：http://arxiv.org/abs/2505.22651，发布于2026年6月4日。

章节 02

背景：VLMs推理能力的核心瓶颈——缺乏自我纠错

视觉语言模型在图像理解、视觉问答等任务进展迅速，但复杂推理时存在显著瓶颈：现有SFT或RL训练的模型难以实现逐步或整体自我纠错。根源在于训练范式侧重单次推理准确性，忽视模型自我验证与修正能力，如何让VLMs具备类似人类的"反思-修正"能力是关键挑战。

章节 03

Sherlock框架：内在自我纠错的多阶段训练方案

Sherlock框架的核心创新包括：1.无需外部提示/多次采样的内在自我纠错机制；2.仅用20K样本的数据高效性；3.三阶段训练流程（监督微调→离线自我改进→在线自我改进）；4.跨基准泛化能力。基于Llama3.2-Vision-11B-Instruct构建：

阶段1：用LLaVA-CoT 20K样本监督微调，掌握基础推理能力；
阶段2：离线自我生成数据训练，学习错误恢复策略；
阶段3：在线用问题和图像构建5K偏好数据，动态调整推理策略。

章节 04

实验证据：多基准性能突破自我纠错瓶颈

使用VLMEvalKit评估框架，覆盖数学推理、科学问答、视觉常识推理等任务。关键发现：现有VLMs普遍缺乏自我纠错能力，Sherlock通过创新框架突破该瓶颈，取得显著提升。模型权重已发布：https://huggingface.co/collections/Tuwhy/sherlock-6835f46e450a48f228f7e80d。

章节 05

使用指南：环境准备与代码实现

基于LLaMA-Factory和VLMEvalKit修改实现：

基础模型：下载Llama3.2-Vision-11B-Instruct（https://huggingface.co/meta-llama/Llama-3.2-11B-Vision-Instruct）；
训练数据：LLaVA-CoT数据集（https://huggingface.co/datasets/Xkev/LLaVA-CoT-100k），SFT/离线阶段用20K样本，在线阶段用问题+图像构建5K偏好数据；
推理示例：加载Sherlock Iter2权重（Tuwhy/Sherlock-Iter2），通过transformers库实现推理；
训练与评估指南参考项目仓库的train/README.md和inference/README.md。

章节 06

项目影响：学术认可与开源贡献

Sherlock论文获NeurIPS 2025接收，标志自我纠错推理在VLMs领域的重要学术价值。项目完全开源，包括训练/评估代码、数据构建流程、模型权重及文档，为社区研究提供支持。启发方向：自我纠错机制设计、数据效率优化、视觉-语言融合推理。

章节 07

总结：Sherlock的突破与未来价值

Sherlock作为首个内在自我纠错VLMs框架，通过多阶段训练用少量样本实现性能提升，证明自我纠错对推理能力的关键作用。开源资源将推动VLMs向更智能、可靠的推理系统发展，为相关领域研究提供新范式。

Sherlock：视觉语言模型的自我纠错推理框架

【导读】Sherlock：VLMs自我纠错推理框架开源（NeurIPS 2025接收）

背景：VLMs推理能力的核心瓶颈——缺乏自我纠错

Sherlock框架：内在自我纠错的多阶段训练方案

实验证据：多基准性能突破自我纠错瓶颈

使用指南：环境准备与代码实现

项目影响：学术认可与开源贡献

总结：Sherlock的突破与未来价值

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

从零开始搭建AWS生成式AI应用：EC2+Bedrock实战教程