正文

VisionWeaver：从视觉编码器视角解决多模态大模型的幻觉问题

EMNLP 2025 Findings 录用的一项研究，提出通过动态聚合多个专业视觉编码器的特征来缓解大型视觉语言模型中的对象幻觉问题，并配套发布了VHBench-10细粒度评测基准。

视觉语言模型对象幻觉多专家架构动态路由VHBench-10EMNLP 2025CLIPDINOv2SAM多模态学习

发布时间 2026/04/09 15:39最近活动 2026/04/09 15:45预计阅读 3 分钟

章节 01

VisionWeaver：从视觉编码器视角解决多模态大模型幻觉问题（主楼导读）

EMNLP 2025 Findings录用的研究——VisionWeaver，提出通过动态聚合多个专业视觉编码器特征缓解大型视觉语言模型的对象幻觉问题，并配套发布VHBench-10细粒度评测基准。核心思路是从视觉特征提取源头优化，利用多专家架构与动态路由机制减少幻觉。

章节 02

背景：视觉语言模型的幻觉困境

大型视觉语言模型（LVLMs）在图像理解与生成任务进展显著，但对象幻觉问题（描述不存在的物体/属性）严重影响可靠性。传统方案聚焦语言解码端优化（如数据质量、解码策略、后处理），未解决源头问题。VisionWeaver团队假设：不同视觉编码器归纳偏置不同，导致各异幻觉模式，需从视觉特征提取源头入手。

章节 03

方法：VisionWeaver的核心创新

多专家视觉编码器架构

不依赖单一编码器，整合多个特性专家：

CLIP：主编码器，提供全局视觉理解
DINOv2：自监督细粒度特征学习
SAM：分割能力，定位物体边界
Vary：文档与文本图像理解
ConvNext与EVA-02：互补视觉表征

动态路由机制

用CLIP的[CLS]令牌生成路由信号，加权融合专家特征，实现：

自适应选择专家组合（依图像类型）
全局理解指导局部融合
减少单一编码器偏见

核心是上下文感知路由网络，智能聚合多专家优势。

章节 04

证据：VHBench-10细粒度幻觉评测基准

数据集构成

含约10,000样本，三元组结构(I,R,H)：

I：输入图像
R：事实准确描述
H：含特定幻觉的描述

十大幻觉类别

分4维度10子类： 检测类：颜色识别、形状识别 分割类：物体计数、属性描述 定位类：相对位置、绝对位置 分类类：物体识别、文本识别、场景理解、动作识别

数据生成

幻觉描述由GPT-4o生成，通过提示工程针对性测试各子类，可控注入幻觉以定位模型缺陷。

章节 05

证据：技术实现与实验设置

基于LLaVA-1.5架构，支持Qwen和LLaMA系列语言模型，开源训练/推理代码。

环境配置

Python3.12
PyTorch2.9.1/torchvision0.24.1
Transformers4.57.3
DeepSpeed0.15.4（分布式训练）

训练流程

提供预训练/微调脚本，支持Qwen3B、LLaMA3B模型，用户更新配置文件（数据/模型/输出路径）即可运行。

章节 06

研究意义与启示

视觉端优化价值：证明从视觉特征提取源头优化的有效性，弥补传统语言端聚焦的不足。
多专家架构潜力：动态路由与多专家融合在跨模态任务的成功，拓展MoE思路。
细粒度评测必要性：VHBench-10的10类分类体系提供系统性评测框架，助力精准改进。
开源协作力量：整合CLIP、DINOv2等开源编码器，体现社区协作创新。

章节 07

总结与展望

VisionWeaver作为EMNLP2025 Findings录用工作，为缓解LVLM幻觉提供新颖有效方案，通过多专家特征聚合提升准确性，为理解幻觉视觉根源提供新视角。

VHBench-10为社区提供细粒度评测工具，推动系统性研究。随着LVLM在医疗、自动驾驶等领域应用，解决幻觉问题愈发重要，VisionWeaver的思路与开源实现将为后续探索提供参考。