# MultiToP：通过视觉Token修补技术缓解视频多模态大模型幻觉问题

> 浙江大学、中山大学和华东师范大学的研究团队提出MultiToP框架，通过在语言生成前精细化修补不可靠的视觉Token，有效缓解视频多模态大模型的幻觉问题。该方法在Vript-HAL基准上将Qwen3-VL-4B-Instruct的F1分数提升了50.60%，同时保持通用视频理解能力。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-10T08:25:09.000Z
- 最近活动: 2026-06-11T02:50:18.009Z
- 热度: 130.6
- 关键词: 视频多模态模型, 幻觉缓解, 视觉Token修补, MultiToP, 大语言模型, 计算机视觉, 深度学习
- 页面链接: https://www.zingnex.cn/forum/thread/multitop-token
- Canonical: https://www.zingnex.cn/forum/thread/multitop-token
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/团队**：Yuansheng Gao、Wenbin Xing、Jiahao Yuan、Kaiwen Zhou、Han Bao、Zonghui Wang、Wenzhi Chen
- **来源平台**：arXiv
- **原文标题**：MultiToP: Learning to Patch Visual Tokens to Mitigate Hallucinations in Video Large Multimodal Models
- **原文链接**：https://arxiv.org/abs/2606.11792
- **发表时间**：2026年6月10日
- **机构**：浙江大学、中山大学、华东师范大学

---

## 视频多模态模型的幻觉困境

视频大语言多模态模型（Video Large Multimodal Models，简称VideoLMMs）近年来发展迅速，在视频理解和推理方面展现出强大能力。像Qwen3-VL、Video-LLaVA等模型已经能够处理复杂的视频问答、描述生成等任务。然而，这些模型在实际应用中仍面临一个关键挑战——幻觉（Hallucination）。

所谓幻觉，指的是模型生成的回答看似合理，但实际上与输入视频内容并不一致。这种问题在视频理解场景中尤为严重，因为模型不仅需要识别视觉实体，还要跟踪动作、关系以及跨帧的时间动态。视频内容的时空动态特性使得模型更容易出现组合性错误，例如将不同帧中的实体错误关联，或者对时间顺序产生误判。

现有的幻觉缓解方法主要从数据、视频、帧或响应层面进行干预，但这些方法往往忽略了一个关键问题：视觉Token级别的可靠性。在VideoLMMs中，视频输入首先被编码并投影为视觉Token，然后送入语言模型处理。然而，并非所有视觉Token都提供可靠的证据——有些Token捕捉了显著物体、动作和时间转换，而另一些则可能编码了背景区域、冗余信息或不确定特征。一旦这些不可靠的Token进入语言模型，它们可能会与偏置的注意力模式或强烈的语言先验相互作用，在自回归生成过程中被放大，最终导致幻觉。

## MultiToP的核心思想：Token级修补

基于上述洞察，研究团队提出了MultiToP（Multimodal-context-aware visual Token Patching），这是一个多模态上下文感知的视觉Token修补框架。其核心思想是在语言生成之前，通过修补不可靠的视觉Token来缓解幻觉问题。

与传统的在模型、视频、帧或响应层面进行干预的方法不同，MultiToP直接在Token级别进行操作。它引入了一个轻量级的视觉Token修补器（Visual Token Patcher），能够预测Token级别的替换分布，并生成一个动态全局修补Token，用于选择性地替换不可靠的视觉Token。

这种方法的优势在于：首先，它不需要修改原始VideoLMM模型，保持了模型的完整性和通用能力；其次，修补器本身非常轻量，引入的推理开销可以忽略不计；最后，通过精细化的Token级干预，能够更精准地定位和处理导致幻觉的问题Token。

## 信息引导的排序校准训练策略

为了有效训练视觉Token修补器，研究团队提出了信息引导的排序校准（Information-Guided Rank Calibration）方法。这一训练策略的核心是利用答案条件的帧级信息线索来指导Token替换。

具体来说，该方法从VideoLMM主干网络中提取答案条件的帧级信息线索，这些线索反映了不同帧对于生成正确答案的重要性。通过将这些信息线索与Token级别的替换分布相结合，修补器能够学习到哪些Token更可能需要被替换。

训练过程中还结合了真实答案监督和稀疏性正则化。真实答案监督确保修补后的Token能够支持生成正确的回答，而稀疏性正则化则鼓励修补器只替换真正需要修补的Token，避免过度干预。这种组合使得修补器能够在保持模型原有能力的同时，有效减少幻觉。

## 实验验证与性能表现

研究团队在多个基准数据集上进行了广泛的实验验证。在专门用于评估幻觉的Vript-HAL基准上，MultiToP取得了显著的性能提升：

对于Video-LLaVA-7B模型，MultiToP将F1分数提升了9.68%；对于更强的Qwen3-VL-4B-Instruct模型，F1分数更是提升了50.60%。这一结果表明，即使是当前先进的视频多模态模型，也能从Token级修补中获益。

更重要的是，MultiToP在减少幻觉的同时，保持了模型的通用视频理解能力。在ActivityNet-QA基准测试中，Video-LLaVA-7B配合MultiToP取得了18.58%的相对准确率提升。这说明MultiToP的修补策略不会损害模型在正常视频理解任务上的表现。

从计算效率角度来看，MultiToP引入的额外开销极小。由于修补器本身结构轻量，且只在推理前执行一次Token修补操作，因此不会显著增加推理时间或内存消耗。这使得MultiToP可以实际部署到需要实时响应的应用场景中。

## 技术细节与实现考量

MultiToP的实现涉及几个关键的技术细节。首先是视觉Token修补器的架构设计——它需要足够轻量以保证效率，同时又要具备足够的表达能力来准确识别和修补问题Token。研究团队采用了基于注意力机制的架构，能够有效地聚合多模态上下文信息。

其次是训练数据的构建。由于需要答案条件的帧级信息线索，训练过程需要成对的视频-问题-答案数据。研究团队利用现有的视频问答数据集，通过主干网络提取信息线索，构建训练信号。

另一个重要考量是超参数的选择。稀疏性正则化的权重需要仔细调整——过强会导致修补不足，过弱则可能导致过度修补。实验表明，适当的稀疏性约束能够在减少幻觉和保持模型能力之间取得良好平衡。

## 研究意义与未来展望

MultiToP的提出为视频多模态模型的幻觉问题提供了一个新的解决思路。传统方法往往关注宏观层面的干预，而MultiToP则深入到Token级别，揭示了视觉Token可靠性对最终生成质量的关键影响。

这一研究的意义不仅在于提出了一个有效的幻觉缓解方法，更在于为理解VideoLMMs的内部工作机制提供了新的视角。通过分析哪些Token被修补器识别为不可靠，研究者可以更好地理解模型在视频理解过程中的潜在弱点。

未来的研究方向包括将MultiToP扩展到其他模态（如音频Token修补），探索更高效的修补器架构，以及开发无需真实答案监督的自监督训练方法。此外，如何将该框架与现有的推理时干预方法相结合，也值得进一步探索。