Zing 论坛

正文

RVCD:通过检索视觉对比解码缓解大视觉语言模型的物体幻觉问题

ACL 2025 Findings论文RVCD提出检索视觉对比解码方法,通过引入外部视觉知识库的对比学习机制,有效缓解大视觉语言模型中的物体幻觉问题。

视觉语言模型物体幻觉对比解码检索增强ACL 2025多模态LLaVA图像描述
发布时间 2026/05/24 21:44最近活动 2026/05/24 21:52预计阅读 7 分钟
RVCD:通过检索视觉对比解码缓解大视觉语言模型的物体幻觉问题
1

章节 01

导读 / 主楼:RVCD:通过检索视觉对比解码缓解大视觉语言模型的物体幻觉问题

ACL 2025 Findings论文RVCD提出检索视觉对比解码方法,通过引入外部视觉知识库的对比学习机制,有效缓解大视觉语言模型中的物体幻觉问题。

2

章节 02

原作者与来源

  • 原作者/维护者:JiHoonLee9898
  • 来源平台:github
  • 原始标题:RVCD: Retrieval Visual Contrastive Decoding
  • 原始链接:https://github.com/JiHoonLee9898/RVCD
  • 来源发布时间/更新时间:2026-05-24T13:44:19Z
3

章节 03

补充观点 1

原作者与来源

  • 原作者/维护者:JiHoonLee9898
  • 来源平台:github
  • 原始标题:RVCD: Retrieval Visual Contrastive Decoding
  • 原始链接:https://github.com/JiHoonLee9898/RVCD
  • 来源发布时间/更新时间:2026-05-24T13:44:19Z 原作者与来源\n\n- 原作者/维护者: JiHoonLee9898\n- 来源平台: GitHub\n- 原始标题: RVCD: Retrieval Visual Contrastive Decoding to Mitigate Object Hallucinations in Large Vision-Language Models\n- 原始链接: https://github.com/JiHoonLee9898/RVCD\n- 论文链接: https://arxiv.org/abs/2505.20569\n- 发表会议: ACL 2025 Findings\n- 发布时间: 2026年5月24日\n\n---\n\n研究背景与问题定义\n\n大视觉语言模型(Large Vision-Language Models, LVLMs)在图像描述、视觉问答等任务中展现出强大能力,但普遍存在一个严重问题——物体幻觉(Object Hallucination)。具体表现为模型生成的文本描述中包含图像中实际不存在的物体,或错误地描述物体的属性、位置和关系。\n\n物体幻觉不仅降低了模型的实用性,更在医疗影像分析、自动驾驶等高风险应用场景中构成安全隐患。现有缓解方法主要包括:\n\n- VCD(Visual Contrastive Decoding): 通过引入视觉扰动进行对比解码\n- OPERA: 基于注意力惩罚的解码方法\n- HALC: 利用局部视觉 grounding 进行修正\n- DoLA: 动态层选择策略\n\n然而,这些方法主要依赖模型内部知识,缺乏对外部视觉证据的有效利用。\n\n---\n\nRVCD核心方法\n\nRVCD(Retrieval Visual Contrastive Decoding)提出了一种新颖的解码策略,通过引入外部检索视觉知识进行对比学习,从根本上缓解物体幻觉问题。\n\n方法直觉\n\nRVCD的核心洞察是:当模型生成描述时,如果某个物体在图像中真实存在,其对应的视觉特征应该与模型内部表示一致;反之,如果物体是幻觉产生的,其视觉特征将与检索到的真实视觉知识产生显著差异。基于这一直觉,RVCD设计了两个关键参数:\n\n- 负向logits调节参数(rvcd_alpha): 默认值为1,用于抑制幻觉物体的生成概率\n- 正向logits恢复参数(rvcd_beta): 默认值为0.1,用于增强真实物体的生成概率\n\n检索视觉知识库构建\n\nRVCD的实现依赖于一个精心构建的视觉知识库:\n\n- 单概念图像生成: 使用FLUX模型生成大量单概念图像,涵盖COCO数据集中的常见物体类别\n- 视觉特征提取: 通过预训练视觉编码器提取这些图像的特征表示\n- 知识库组织: 将视觉特征与概念标签关联,形成结构化的检索数据库\n\n对比解码机制\n\n在解码过程中,RVCD执行以下步骤:\n\n1. 候选token生成: 基于当前上下文生成下一个token的候选分布\n2. 视觉检索: 对于候选token对应的物体概念,从知识库中检索相关视觉特征\n3. 对比评分: 计算候选token的logits与检索视觉特征的对比分数\n4. logits调节: 应用rvcd_alpha和rvcd_beta参数,调节正负向logits\n5. 采样输出: 基于调节后的分布进行token采样\n\n这种机制使得模型在生成描述时能够"对照"外部视觉证据,从而减少凭空捏造物体的可能性。\n\n---\n\n实验验证与评估\n\n评估基准\n\nRVCD在三个广泛使用的幻觉评估基准上进行了验证:\n\n1. CHAIR(Caption Hallucination Assessment with Image Relevance): 评估图像描述中的物体幻觉率\n2. BLEU: 评估生成描述与参考描述的语言质量\n3. POPE(Polling-based Object Probing Evaluation): 通过问答形式评估物体存在性判断的准确性\n4. MME(Multimodal Model Evaluation): 综合评估多模态模型的各项能力\n\n支持的模型骨干\n\nRVCD支持多种主流LVLM架构:\n\n- LLaVA-1.5: 基于Vicuna-7B的视觉语言模型\n- MiniGPT-4: 使用Vicuna-7B作为语言解码器\n- mPLUG-Owl2: 基于LLaMA2-7B的多模态模型\n\n对比基线方法\n\nRVCD与以下现有方法进行了全面对比:\n\n- Greedy: 标准贪婪解码\n- Beam Search: 束搜索解码\n- DoLA: 动态层选择\n- VCD: 视觉对比解码\n- OPERA: 注意力回顾惩罚\n- HALC: 局部视觉修正\n\n---\n\n技术实现细节\n\n项目结构\n\n\nRVCD/\n├── MAIN_CODES/\n│ ├── rvcd_generation_chair_bleu.py RVCD核心生成实现\n│ ├── eval_configs/ 评估配置文件\n│ ├── decoder_zoo/ 解码方法集合\n│ │ └── GroundingDINO/ 视觉grounding模块\n│ └── eval/ 评估脚本\n├── DB_single_concept_images_flux_generated/ FLUX生成的单概念图像\n└── setup_logs/ 安装日志\n\n\n关键超参数\n\n| 参数 | 默认值 | 说明 |\n|------|--------|------|\n| rvcd_alpha | 1 | 负向logits调节参数,控制幻觉抑制强度 |\n| rvcd_beta | 0.1 | 正向logits恢复参数,控制真实物体增强强度 |\n\n依赖组件\n\n- GroundingDINO: 用于HALC基线的视觉grounding\n- YOLOv8: 默认的目标检测器(ultralytics)\n- Transformers 4.36.2: 修改版transformers库\n\n---\n\n研究贡献与意义\n\n主要贡献\n\n1. 新颖的解码范式: 首次将外部检索视觉知识引入对比解码,为幻觉缓解开辟了新方向\n2. 可解释的机制: 通过显式的视觉证据对照,使模型的决策过程更加透明\n3. 广泛的兼容性: 支持多种主流LVLM架构,具有良好的通用性\n4. 全面的评估: 在多个基准上与现有方法进行了系统对比\n\n局限性与未来方向\n\n- 知识库覆盖: 当前知识库基于COCO类别,对罕见物体覆盖不足\n- 计算开销: 检索过程增加了推理延迟\n- 多语言支持: 当前主要针对英文场景\n\n未来研究可探索:动态知识库更新、更高效的检索机制、以及跨语言视觉知识的迁移。\n\n---\n\n快速开始\n\n环境配置\n\nbash\ngit clone https://github.com/JiHoonLee9898/RVCD.git\ncd RVCD\nconda env create -f environment.yml\nconda activate RVCD\ncd MAIN_CODES\n\n\n模型权重配置\n\n需下载以下模型权重并配置路径:\n\n- LLaVA-v1.5-7B\n- Vicuna-7B\n- mPLUG-Owl2-LLaMA2-7B\n- MiniGPT-4预训练权重\n- GroundingDINO权重\n\n运行示例\n\n项目提供了完整的运行脚本run_example.sh,包含6个评估块,分别用于评估CHAIR/BLEU、POPE和MME指标。\n\n---\n\n关键要点总结\n\n- RVCD通过引入外部检索视觉知识进行对比解码,有效缓解物体幻觉\n- 双参数调节机制(rvcd_alpha/beta)灵活控制正负向logits\n- FLUX生成的单概念图像构成高质量视觉知识库\n- 多模型支持包括LLaVA-1.5、MiniGPT-4、mPLUG-Owl2\n- 全面评估覆盖CHAIR、BLEU、POPE、MME等基准\n- ACL 2025 Findings收录,代表领域前沿进展\n