正文

MultiToP：通过视觉Token修补技术缓解视频多模态大模型幻觉问题

浙江大学、中山大学和华东师范大学的研究团队提出MultiToP框架，通过在语言生成前精细化修补不可靠的视觉Token，有效缓解视频多模态大模型的幻觉问题。该方法在Vript-HAL基准上将Qwen3-VL-4B-Instruct的F1分数提升了50.60%，同时保持通用视频理解能力。

视频多模态模型幻觉缓解视觉Token修补MultiToP大语言模型计算机视觉深度学习

发布时间 2026/06/10 16:25最近活动 2026/06/11 10:50预计阅读 2 分钟

章节 01

【导读】MultiToP：视觉Token修补缓解视频多模态模型幻觉问题

浙江大学、中山大学和华东师范大学研究团队提出MultiToP框架，通过在语言生成前精细化修补不可靠视觉Token，有效缓解视频多模态大模型幻觉。该方法在Vript-HAL基准将Qwen3-VL-4B-Instruct的F1分数提升50.60%，同时保持通用视频理解能力。原文发表于arXiv（2026年6月10日），链接：https://arxiv.org/abs/2606.11792。

章节 02

视频多模态模型的幻觉困境与现有方法局限

视频多模态模型（VideoLMMs）如Qwen3-VL、Video-LLaVA在视频理解推理中表现强大，但存在幻觉问题：生成回答与视频内容不一致，因视频时空动态易导致组合错误（如实体错误关联、时间顺序误判）。现有方法多从数据、视频等宏观层面干预，忽略视觉Token级可靠性——不可靠Token（背景、冗余信息）进入模型后易被放大，引发幻觉。

章节 03

MultiToP框架：Token级视觉修补的创新思路

MultiToP（Multimodal-context-aware visual Token Patching）核心是语言生成前修补不可靠视觉Token。引入轻量级视觉Token修补器，预测替换分布并生成动态全局修补Token，选择性替换不可靠Token。优势：无需修改原模型、推理开销可忽略、精准干预问题Token。

章节 04

信息引导的排序校准训练方法

训练策略采用信息引导的排序校准：从VideoLMM主干提取答案条件的帧级信息线索（反映帧对正确答案的重要性），结合Token替换分布指导修补。训练结合真实答案监督（确保修补后支持正确回答）和稀疏性正则化（避免过度干预），平衡幻觉缓解与模型能力。

章节 05

实验表现：幻觉缓解与通用能力的平衡

实验验证：在Vript-HAL幻觉基准上，Video-LLaVA-7B F1提升9.68%，Qwen3-VL-4B-Instruct F1提升50.60%；ActivityNet-QA基准中Video-LLaVA-7B相对准确率提升18.58%，保持通用能力。计算效率方面，修补器轻量，额外开销极小，适合实时部署。

章节 06