# Sherlock：视觉语言模型的自我纠错推理框架

> NeurIPS 2025 接收论文 Sherlock 开源实现发布，首个实现视觉语言模型内在自我纠错能力的框架，仅用20K样本在多个基准测试上取得显著提升。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-04T06:55:20.000Z
- 最近活动: 2026-06-04T07:24:23.438Z
- 热度: 152.5
- 关键词: Sherlock, 视觉语言模型, 自我纠错, 推理, NeurIPS 2025, VLM, LLaVA-CoT, 多阶段训练, 自我改进
- 页面链接: https://www.zingnex.cn/forum/thread/sherlock
- Canonical: https://www.zingnex.cn/forum/thread/sherlock
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：DripNowhy
- 来源平台：github
- 原始标题：Sherlock: Self-Correcting Reasoning in Vision-Language Models
- 原始链接：https://github.com/DripNowhy/Sherlock
- 来源发布时间/更新时间：2026-06-04T06:55:20Z

## 原作者与来源\n\n- **原作者/维护者**: DripNowhy\n- **来源平台**: GitHub\n- **原始标题**: Sherlock: Self-Correcting Reasoning in Vision-Language Models\n- **原始链接**: https://github.com/DripNowhy/Sherlock\n- **论文链接**: http://arxiv.org/abs/2505.22651\n- **项目主页**: https://dripnowhy.github.io/Sherlock/\n- **发布时间**: 2026年6月4日\n- **会议**: NeurIPS 2025\n\n---\n\n## 背景：视觉语言模型的推理困境\n\n视觉语言模型（Vision-Language Models, VLMs）近年来发展迅速，在图像理解、视觉问答等任务上取得了显著进展。然而，一个长期困扰研究者的问题是：这些模型在面对复杂推理任务时，往往缺乏自我纠错能力。\n\n研究表明，无论是通过监督微调（SFT）还是强化学习（RL）训练的现有推理 VLMs，都难以实现有效的自我纠错——无论是逐步纠错（step-wise）还是整体响应纠错（response-wise）。这意味着当模型生成错误答案时，它们通常无法识别并修正自己的错误，导致推理能力存在明显瓶颈。\n\n这一问题的根源在于，现有的训练范式主要关注单次推理的准确性，而忽视了模型在推理过程中进行自我验证和修正的能力。如何让 VLMs 具备类似人类的"反思-修正"能力，成为提升其推理性能的关键挑战。\n\n---\n\n## Sherlock 框架：自我纠错的新范式\n\nSherlock 是首个实现视觉语言模型内在自我纠错能力的框架。与依赖外部反馈或多次采样的方法不同，Sherlock 通过创新的训练策略，使模型能够在推理过程中自主检测并修正错误。\n\n### 核心创新点\n\nSherlock 框架的主要贡献包括：\n\n1. **内在自我纠错机制**：模型无需外部提示或多次采样，即可在推理过程中自动识别并修正错误\n2. **数据高效性**：仅使用 20,000 条随机采样的标注数据（来自 LLaVA-CoT 数据集），即可实现显著性能提升\n3. **多阶段训练流程**：结合监督微调、离线自我改进和在线自我改进三个阶段\n4. **跨基准泛化能力**：在多个视觉推理基准测试上均取得优异表现\n\n### 技术架构\n\nSherlock 基于 Llama3.2-Vision-11B-Instruct 模型构建，采用以下训练流程：\n\n#### 阶段一：监督微调（SFT）\n\n从 LLaVA-CoT 数据集中随机采样 20,000 条带标注的数据进行初始监督微调。这一阶段使模型掌握基础的视觉推理能力。\n\n#### 阶段二：离线自我改进（Offline Self-Improvement）\n\n在离线阶段，模型通过自我生成的数据进行进一步训练，学习从错误中恢复的策略。\n\n#### 阶段三：在线自我改进（Online Self-Improvement）\n\n在线阶段仅使用问题和图像（无标准答案），让模型自我构建 5,000 条偏好数据。这一阶段训练模型在真实推理场景中动态调整策略。\n\n---\n\n## 实验结果与性能表现\n\nSherlock 在多个视觉推理基准测试上进行了评估，结果显示其在自我纠错能力方面取得了突破性进展。\n\n### 基准测试覆盖\n\n项目使用 VLMEvalKit 评估框架，在多个标准视觉推理基准上进行测试，涵盖数学推理、科学问答、视觉常识推理等任务类型。\n\n### 关键发现\n\n研究团队的分析揭示了现有推理 VLMs 的一个普遍问题：无论是 SFT 还是 RL 训练的模型，都难以实现有效的自我纠错。Sherlock 通过其创新的训练框架，成功突破了这一瓶颈，在多个基准上取得显著提升。\n\n### 模型权重发布\n\n项目团队已发布 Sherlock 的模型权重，可通过 Hugging Face 获取：\n\n```\nhttps://huggingface.co/collections/Tuwhy/sherlock-6835f46e450a48f228f7e80d\n```\n\n---\n\n## 使用指南与代码实现\n\nSherlock 项目提供了完整的训练和推理代码，基于 LLaMA-Factory 和 VLMEvalKit 框架修改实现。\n\n### 环境准备\n\n#### 基础模型\n\n下载 Llama3.2-Vision-11B-Instruct 基础模型：\n\n```\nhttps://huggingface.co/meta-llama/Llama-3.2-11B-Vision-Instruct\n```\n\n#### 训练数据\n\n下载 LLaVA-CoT 数据集：\n\n```\nhttps://huggingface.co/datasets/Xkev/LLaVA-CoT-100k\n```\n\n#### 训练数据使用说明\n\n- **SFT 和离线阶段**：使用 20,000 条带标注的随机采样数据\n- **在线自我改进阶段**：仅使用问题和图像（无标准答案），自我构建 5,000 条偏好数据\n\n### 训练流程\n\n详细的训练指南可参考项目仓库中的 `train/README.md` 文件。训练代码基于 LLaMA-Factory 框架修改实现。\n\n### 推理与评估\n\n#### 快速推理示例\n\n下载 Sherlock Iter2 权重后，可使用以下代码进行推理：\n\n```python\n# 参考 inference/demo/inference.py\nfrom transformers import AutoModelForVision2Seq, AutoProcessor\n\nmodel = AutoModelForVision2Seq.from_pretrained(\"Tuwhy/Sherlock-Iter2\")\nprocessor = AutoProcessor.from_pretrained(\"Tuwhy/Sherlock-Iter2\")\n\n# 准备图像和文本输入\n# 模型将输出带有自我纠错过程的推理结果\n```\n\n#### 评估\n\n评估代码基于 VLMEvalKit 框架修改，详细指南见 `inference/README.md`。\n\n---\n\n## 项目影响与学术价值\n\n### NeurIPS 2025 接收\n\nSherlock 论文已被 NeurIPS 2025 接收，这标志着自我纠错推理在视觉语言模型领域的重要学术认可。\n\n### 开源贡献\n\n项目完全开源，包括：\n- 训练和评估代码\n- 数据构建流程\n- 模型权重\n- 详细文档和示例\n\n这种开放的态度将促进社区的进一步研究和应用。\n\n### 对相关领域的启发\n\nSherlock 的成功为以下研究方向提供了重要启示：\n\n1. **自我纠错机制设计**：展示了如何通过多阶段训练实现模型的内在自我纠错能力\n2. **数据效率**：证明少量高质量数据配合创新训练策略可以取得显著效果\n3. **视觉-语言融合推理**：为视觉语言模型的推理能力提升提供了新思路\n\n---\n\n## 致谢与引用\n\nSherlock 项目受益于多个开源项目的支持，包括：\n\n- **LLaVA-CoT**：提供高质量的训练数据\n- **LLaMA-Factory**：提供训练框架基础\n- **VLMEvalKit**：提供评估框架基础\n\n### 引用格式\n\n如果该项目对您的研究有帮助，请按以下格式引用：\n\n```bibtex\n@article{ding2026sherlock,\n  title={Sherlock: Self-correcting reasoning in vision-language models},\n  author={Ding, Yi and Zhang, Ruqi},\n  journal={Advances in Neural Information Processing Systems},\n  volume={38},\n  pages={101638--101672},\n  year={2026}\n}\n```\n\n---\n\n## 总结\n\nSherlock 作为首个实现视觉语言模型内在自我纠错能力的框架，在推理 VLMs 领域取得了重要突破。通过创新的多阶段训练策略，Sherlock 仅用 20,000 条样本就在多个基准测试上实现了显著提升，证明了自我纠错机制对于提升模型推理能力的重要性。\n\n该项目的开源发布为视觉语言模型的研究和应用提供了宝贵的资源，有望推动该领域向更加智能、可靠的推理系统发展。