章节 01
V2PE:提升多模态长上下文理解的新方法
上海人工智能实验室OpenGVLab团队提出V2PE(可变视觉位置编码)方法,通过为视觉token引入可变且更小的位置增量,显著提升视觉语言模型(VLMs)处理超长多模态序列的能力,支持高达100万token的上下文长度。该成果已被ICCV 2025接收。
正文
上海人工智能实验室OpenGVLab团队提出的V2PE方法,通过为视觉token引入可变且更小的位置增量,显著提升了视觉语言模型处理超长多模态序列的能力,支持高达100万token的上下文长度。
章节 01
上海人工智能实验室OpenGVLab团队提出V2PE(可变视觉位置编码)方法,通过为视觉token引入可变且更小的位置增量,显著提升视觉语言模型(VLMs)处理超长多模态序列的能力,支持高达100万token的上下文长度。该成果已被ICCV 2025接收。
章节 02
当前VLMs处理长上下文多模态输入时面临挑战。传统方法将大语言模型的位置编码直接应用于视觉token低效甚至无效,尤其在大量图像或长视频序列输入时,难以捕捉视觉元素的空间关系和时序依赖。根源在于文本与视觉token的信息密度和序列特性存在本质差异:文本是离散符号序列,而视觉token含丰富空间信息且内部有强烈二维关联,一维位置编码忽略了视觉数据的独特结构。
章节 03
V2PE打破标准位置编码惯例,核心是为视觉token分配可变且更小的位置增量。技术原理包括:1.可变增量策略:视觉token位置增量根据图像内容动态调整;2.更小增量步长:相比文本token,视觉token用更小增量,放大位置编码空间以精细区分相对位置;3.保持序列连贯性:整个序列(文本+视觉)位置编码单调递增,确保跨模态注意力计算正确。该成果已被ICCV 2025接收。
章节 04
基于InternVL2-2B模型实验,V2PE微调后表现卓越:1.通用多模态基准(ChartQA、DocVQA等):保持或优于原始模型性能;2.长上下文基准:MM-NIAH平均准确率81.8%(基线21.0%),MileBench平均得分72.5%(基线49.9%);3.超长序列支持:结合Ring Attention技术,可处理高达100万token的序列长度。
章节 05
1.训练数据:构建长文档阅读(long_mr系列)、长上下文视觉问答(long_vqa系列)、MileBench等长上下文数据集;2.Ring Attention:处理256K+超长序列时,分割样本到多GPU以限制内存使用;3.开源:项目完全开源,包括训练代码、模型权重(HuggingFace)、数据集、评估脚本及复现指南。
章节 06
应用前景:1.即插即用,可应用于现有VLMs架构无需大规模改动;2.资源友好,基于2B参数轻量级模型;3.场景拓展,支持百万级token,可处理整本书籍、长视频等;4.启发性,揭示位置编码在多模态建模的关键作用。总结:V2PE通过优化视觉token位置编码,以最小架构改动提升多模态长上下文能力,推进VLMs技术边界,为复杂任务提供实用工具。