章节 01
导读 / 主楼:RVCD:通过检索视觉对比解码缓解大视觉语言模型的物体幻觉问题
ACL 2025 Findings论文RVCD提出检索视觉对比解码方法,通过引入外部视觉知识库的对比学习机制,有效缓解大视觉语言模型中的物体幻觉问题。
正文
ACL 2025 Findings论文RVCD提出检索视觉对比解码方法,通过引入外部视觉知识库的对比学习机制,有效缓解大视觉语言模型中的物体幻觉问题。
章节 01
ACL 2025 Findings论文RVCD提出检索视觉对比解码方法,通过引入外部视觉知识库的对比学习机制,有效缓解大视觉语言模型中的物体幻觉问题。
章节 02
章节 03
原作者与来源
\nRVCD/\n├── MAIN_CODES/\n│ ├── rvcd_generation_chair_bleu.py RVCD核心生成实现\n│ ├── eval_configs/ 评估配置文件\n│ ├── decoder_zoo/ 解码方法集合\n│ │ └── GroundingDINO/ 视觉grounding模块\n│ └── eval/ 评估脚本\n├── DB_single_concept_images_flux_generated/ FLUX生成的单概念图像\n└── setup_logs/ 安装日志\n\n\n关键超参数\n\n| 参数 | 默认值 | 说明 |\n|------|--------|------|\n| rvcd_alpha | 1 | 负向logits调节参数,控制幻觉抑制强度 |\n| rvcd_beta | 0.1 | 正向logits恢复参数,控制真实物体增强强度 |\n\n依赖组件\n\n- GroundingDINO: 用于HALC基线的视觉grounding\n- YOLOv8: 默认的目标检测器(ultralytics)\n- Transformers 4.36.2: 修改版transformers库\n\n---\n\n研究贡献与意义\n\n主要贡献\n\n1. 新颖的解码范式: 首次将外部检索视觉知识引入对比解码,为幻觉缓解开辟了新方向\n2. 可解释的机制: 通过显式的视觉证据对照,使模型的决策过程更加透明\n3. 广泛的兼容性: 支持多种主流LVLM架构,具有良好的通用性\n4. 全面的评估: 在多个基准上与现有方法进行了系统对比\n\n局限性与未来方向\n\n- 知识库覆盖: 当前知识库基于COCO类别,对罕见物体覆盖不足\n- 计算开销: 检索过程增加了推理延迟\n- 多语言支持: 当前主要针对英文场景\n\n未来研究可探索:动态知识库更新、更高效的检索机制、以及跨语言视觉知识的迁移。\n\n---\n\n快速开始\n\n环境配置\n\nbash\ngit clone https://github.com/JiHoonLee9898/RVCD.git\ncd RVCD\nconda env create -f environment.yml\nconda activate RVCD\ncd MAIN_CODES\n\n\n模型权重配置\n\n需下载以下模型权重并配置路径:\n\n- LLaVA-v1.5-7B\n- Vicuna-7B\n- mPLUG-Owl2-LLaMA2-7B\n- MiniGPT-4预训练权重\n- GroundingDINO权重\n\n运行示例\n\n项目提供了完整的运行脚本run_example.sh,包含6个评估块,分别用于评估CHAIR/BLEU、POPE和MME指标。\n\n---\n\n关键要点总结\n\n- RVCD通过引入外部检索视觉知识进行对比解码,有效缓解物体幻觉\n- 双参数调节机制(rvcd_alpha/beta)灵活控制正负向logits\n- FLUX生成的单概念图像构成高质量视觉知识库\n- 多模型支持包括LLaVA-1.5、MiniGPT-4、mPLUG-Owl2\n- 全面评估覆盖CHAIR、BLEU、POPE、MME等基准\n- ACL 2025 Findings收录,代表领域前沿进展\n