Zing 论坛

正文

MultiToP:通过视觉Token修补技术缓解视频多模态大模型幻觉问题

浙江大学、中山大学和华东师范大学的研究团队提出MultiToP框架,通过在语言生成前精细化修补不可靠的视觉Token,有效缓解视频多模态大模型的幻觉问题。该方法在Vript-HAL基准上将Qwen3-VL-4B-Instruct的F1分数提升了50.60%,同时保持通用视频理解能力。

视频多模态模型幻觉缓解视觉Token修补MultiToP大语言模型计算机视觉深度学习
发布时间 2026/06/10 16:25最近活动 2026/06/11 10:50预计阅读 2 分钟
MultiToP:通过视觉Token修补技术缓解视频多模态大模型幻觉问题
1

章节 01

【导读】MultiToP:视觉Token修补缓解视频多模态模型幻觉问题

浙江大学、中山大学和华东师范大学研究团队提出MultiToP框架,通过在语言生成前精细化修补不可靠视觉Token,有效缓解视频多模态大模型幻觉。该方法在Vript-HAL基准将Qwen3-VL-4B-Instruct的F1分数提升50.60%,同时保持通用视频理解能力。原文发表于arXiv(2026年6月10日),链接:https://arxiv.org/abs/2606.11792。

2

章节 02

视频多模态模型的幻觉困境与现有方法局限

视频多模态模型(VideoLMMs)如Qwen3-VL、Video-LLaVA在视频理解推理中表现强大,但存在幻觉问题:生成回答与视频内容不一致,因视频时空动态易导致组合错误(如实体错误关联、时间顺序误判)。现有方法多从数据、视频等宏观层面干预,忽略视觉Token级可靠性——不可靠Token(背景、冗余信息)进入模型后易被放大,引发幻觉。

3

章节 03

MultiToP框架:Token级视觉修补的创新思路

MultiToP(Multimodal-context-aware visual Token Patching)核心是语言生成前修补不可靠视觉Token。引入轻量级视觉Token修补器,预测替换分布并生成动态全局修补Token,选择性替换不可靠Token。优势:无需修改原模型、推理开销可忽略、精准干预问题Token。

4

章节 04

信息引导的排序校准训练方法

训练策略采用信息引导的排序校准:从VideoLMM主干提取答案条件的帧级信息线索(反映帧对正确答案的重要性),结合Token替换分布指导修补。训练结合真实答案监督(确保修补后支持正确回答)和稀疏性正则化(避免过度干预),平衡幻觉缓解与模型能力。

5

章节 05

实验表现:幻觉缓解与通用能力的平衡

实验验证:在Vript-HAL幻觉基准上,Video-LLaVA-7B F1提升9.68%,Qwen3-VL-4B-Instruct F1提升50.60%;ActivityNet-QA基准中Video-LLaVA-7B相对准确率提升18.58%,保持通用能力。计算效率方面,修补器轻量,额外开销极小,适合实时部署。

6

章节 06

技术细节与关键考量

技术细节:修补器采用注意力架构聚合多模态上下文;训练数据基于现有视频问答数据集,提取帧级线索构建信号;超参数调整需平衡稀疏正则化权重(过强修补不足,过弱过度修补)。

7

章节 07

研究意义与未来方向

意义:提供Token级干预新思路,揭示视觉Token可靠性对生成质量的关键影响,帮助理解模型弱点。未来方向:扩展到音频Token修补、探索高效修补器架构、自监督训练方法、结合现有推理干预方法。