章节 01
【导读】MultiToP:视觉Token修补缓解视频多模态模型幻觉问题
浙江大学、中山大学和华东师范大学研究团队提出MultiToP框架,通过在语言生成前精细化修补不可靠视觉Token,有效缓解视频多模态大模型幻觉。该方法在Vript-HAL基准将Qwen3-VL-4B-Instruct的F1分数提升50.60%,同时保持通用视频理解能力。原文发表于arXiv(2026年6月10日),链接:https://arxiv.org/abs/2606.11792。
正文
浙江大学、中山大学和华东师范大学的研究团队提出MultiToP框架,通过在语言生成前精细化修补不可靠的视觉Token,有效缓解视频多模态大模型的幻觉问题。该方法在Vript-HAL基准上将Qwen3-VL-4B-Instruct的F1分数提升了50.60%,同时保持通用视频理解能力。
章节 01
浙江大学、中山大学和华东师范大学研究团队提出MultiToP框架,通过在语言生成前精细化修补不可靠视觉Token,有效缓解视频多模态大模型幻觉。该方法在Vript-HAL基准将Qwen3-VL-4B-Instruct的F1分数提升50.60%,同时保持通用视频理解能力。原文发表于arXiv(2026年6月10日),链接:https://arxiv.org/abs/2606.11792。
章节 02
视频多模态模型(VideoLMMs)如Qwen3-VL、Video-LLaVA在视频理解推理中表现强大,但存在幻觉问题:生成回答与视频内容不一致,因视频时空动态易导致组合错误(如实体错误关联、时间顺序误判)。现有方法多从数据、视频等宏观层面干预,忽略视觉Token级可靠性——不可靠Token(背景、冗余信息)进入模型后易被放大,引发幻觉。
章节 03
MultiToP(Multimodal-context-aware visual Token Patching)核心是语言生成前修补不可靠视觉Token。引入轻量级视觉Token修补器,预测替换分布并生成动态全局修补Token,选择性替换不可靠Token。优势:无需修改原模型、推理开销可忽略、精准干预问题Token。
章节 04
训练策略采用信息引导的排序校准:从VideoLMM主干提取答案条件的帧级信息线索(反映帧对正确答案的重要性),结合Token替换分布指导修补。训练结合真实答案监督(确保修补后支持正确回答)和稀疏性正则化(避免过度干预),平衡幻觉缓解与模型能力。
章节 05
实验验证:在Vript-HAL幻觉基准上,Video-LLaVA-7B F1提升9.68%,Qwen3-VL-4B-Instruct F1提升50.60%;ActivityNet-QA基准中Video-LLaVA-7B相对准确率提升18.58%,保持通用能力。计算效率方面,修补器轻量,额外开销极小,适合实时部署。
章节 06
技术细节:修补器采用注意力架构聚合多模态上下文;训练数据基于现有视频问答数据集,提取帧级线索构建信号;超参数调整需平衡稀疏正则化权重(过强修补不足,过弱过度修补)。
章节 07
意义:提供Token级干预新思路,揭示视觉Token可靠性对生成质量的关键影响,帮助理解模型弱点。未来方向:扩展到音频Token修补、探索高效修补器架构、自监督训练方法、结合现有推理干预方法。