章节 01
VRCD:提升多模态大语言模型并行解码效率的轻量级方法
原作者与来源
- 原作者/维护者:Yulin Yuan, Hongshuo Zhao, Xiangming Meng (论文作者) / infiniteYuanyl (代码仓库)
- 来源平台:GitHub + arXiv
- 原始标题:Visual-Redundancy-Controlled Parallel Decoding for Diffusion-Based Multimodal Large Language Models
- 原始链接:https://github.com/infiniteYuanyl/VRCD / https://arxiv.org/abs/2605.25820
- 发布/更新时间:2026-05-25 (论文提交), 2026-05-27 (代码更新)
核心观点
VRCD是针对基于扩散的多模态大语言模型(dMLLM)的轻量级即插即用解码方法,通过控制视觉冗余解决并行解码中的重叠视觉依赖问题,显著提升解码效率与准确性,在多个基准测试中取得实质性改进。