章节 01
VisionWeaver:从视觉编码器视角解决多模态大模型幻觉问题(主楼导读)
EMNLP 2025 Findings录用的研究——VisionWeaver,提出通过动态聚合多个专业视觉编码器特征缓解大型视觉语言模型的对象幻觉问题,并配套发布VHBench-10细粒度评测基准。核心思路是从视觉特征提取源头优化,利用多专家架构与动态路由机制减少幻觉。
正文
EMNLP 2025 Findings 录用的一项研究,提出通过动态聚合多个专业视觉编码器的特征来缓解大型视觉语言模型中的对象幻觉问题,并配套发布了VHBench-10细粒度评测基准。
章节 01
EMNLP 2025 Findings录用的研究——VisionWeaver,提出通过动态聚合多个专业视觉编码器特征缓解大型视觉语言模型的对象幻觉问题,并配套发布VHBench-10细粒度评测基准。核心思路是从视觉特征提取源头优化,利用多专家架构与动态路由机制减少幻觉。
章节 02
大型视觉语言模型(LVLMs)在图像理解与生成任务进展显著,但对象幻觉问题(描述不存在的物体/属性)严重影响可靠性。传统方案聚焦语言解码端优化(如数据质量、解码策略、后处理),未解决源头问题。VisionWeaver团队假设:不同视觉编码器归纳偏置不同,导致各异幻觉模式,需从视觉特征提取源头入手。
章节 03
不依赖单一编码器,整合多个特性专家:
用CLIP的[CLS]令牌生成路由信号,加权融合专家特征,实现:
核心是上下文感知路由网络,智能聚合多专家优势。
章节 04
含约10,000样本,三元组结构(I,R,H):
分4维度10子类: 检测类:颜色识别、形状识别 分割类:物体计数、属性描述 定位类:相对位置、绝对位置 分类类:物体识别、文本识别、场景理解、动作识别
幻觉描述由GPT-4o生成,通过提示工程针对性测试各子类,可控注入幻觉以定位模型缺陷。
章节 05
基于LLaVA-1.5架构,支持Qwen和LLaMA系列语言模型,开源训练/推理代码。
提供预训练/微调脚本,支持Qwen3B、LLaMA3B模型,用户更新配置文件(数据/模型/输出路径)即可运行。
章节 06
章节 07
VisionWeaver作为EMNLP2025 Findings录用工作,为缓解LVLM幻觉提供新颖有效方案,通过多专家特征聚合提升准确性,为理解幻觉视觉根源提供新视角。
VHBench-10为社区提供细粒度评测工具,推动系统性研究。随着LVLM在医疗、自动驾驶等领域应用,解决幻觉问题愈发重要,VisionWeaver的思路与开源实现将为后续探索提供参考。