正文

Vision Inference Former：让多模态大模型在生成长文本时保持视觉一致性

本文介绍Vision Inference Former (VIF)，一种轻量级架构模块，通过在解码阶段持续注入视觉语义，解决多模态大语言模型在长文本生成中视觉信息逐渐衰减的问题。

多模态大模型视觉一致性MLLM视觉推理架构创新视觉遗忘解码阶段注入

发布时间 2026/05/18 18:04最近活动 2026/05/19 10:52预计阅读 2 分钟

章节 01

【导读】Vision Inference Former：解决多模态大模型长文本生成的视觉一致性问题

本文介绍Vision Inference Former（VIF），一种轻量级架构模块，通过在解码阶段持续注入视觉语义，解决多模态大语言模型（MLLMs）在长文本生成中视觉信息逐渐衰减的“视觉遗忘”问题，有效提升视觉-语言对齐质量，且额外计算开销极小。

章节 02

近年来MLLMs在视觉-语言任务取得进展，但采用的连接器范式将视觉特征投影为文本token，削弱视觉模态独特贡献。随生成文本长度增加，模型对视觉信息依赖减弱，导致视觉-语言对齐质量下降，出现“视觉遗忘”现象——模型逐渐忘记所看到的图像。

章节 03

VIF的关键创新在于解码阶段持续注入视觉语义，机制包括：1.视觉-输出直连：建立视觉表示到输出空间的直接通路，绕过文本token中介；2.持续视觉注入：自回归生成每一步重新注入视觉语义到隐藏状态；3.轻量级设计：额外计算开销极小，便于部署到各规模模型。此设计确保生成过程始终锚定视觉内容。

章节 04

研究团队在14个基准任务评估VIF，涵盖通用推理、OCR、表格理解、视觉中心评估、幻觉检测等。结果显示VIF能一致性提升各架构模型性能，且额外开销极小，证明其有效性、通用性和可扩展性。

章节 05

VIF揭示当前MLLM架构设计盲点——生成阶段视觉信息衰减；展示架构层面轻量级修改可带来显著性能提升，即插即用特性易于部署；为未来多模态模型设计提供新思路：视觉与语言应平等、持续交互，而非一次性注入后遗忘。

章节 06

VIF在实际场景意义突出：1.长文档生成：医疗影像报告、工业检测报告等场景中确保内容与视觉证据一致；2.减少幻觉：持续锚定视觉信息减少编造不符内容；3.跨架构兼容：轻量设计可应用于现有MLLM架构，无需大规模重构。

章节 07

VIF通过解码阶段持续注入视觉语义有效解决视觉遗忘问题，不仅提供实用技术方案，更重新思考视觉与语言在生成过程的关系。随MLLM在自动驾驶、医疗诊断等关键领域应用，视觉一致性需求增加，VIF提供优雅解决方案，开源代码为社区进一步探索奠定基础。