Zing 论坛

正文

X-Comp:极致视频Token压缩技术实现长视频理解新突破

X-Comp通过可学习的渐进式Token级压缩和基于问题条件的帧级压缩,实现每帧仅用一个Token的极致压缩,使VLM能够处理2-4倍更多帧,在LVBench上准确率从42.9%提升至46.2%。

视频理解Token压缩VLMX-Comp长视频视觉语言模型注意力机制
发布时间 2026/04/16 01:59最近活动 2026/04/16 11:49预计阅读 2 分钟
X-Comp:极致视频Token压缩技术实现长视频理解新突破
1

章节 01

【导读】X-Comp:极致视频Token压缩技术突破长视频理解瓶颈

长视频理解是视觉-语言模型(VLM)的核心挑战,因视频帧数多、每帧Token量大导致LLM上下文容量不足,需稀疏采样丢失时间信息。X-Comp通过可学习的渐进式Token级压缩(LP-Comp)和基于问题条件的帧级压缩(QC-Comp)实现每帧仅用一个Token,使VLM能处理2-4倍更多帧,在LVBench基准测试中准确率从42.9%提升至46.2%,为长视频理解开辟新路径。

2

章节 02

长视频理解的核心困境与传统压缩局限

长视频理解的核心矛盾

当前VLM处理视频时面临帧多需捕捉动态与LLM上下文窗口有限的矛盾:几分钟视频含数千帧,每帧生成100Token则视觉部分需数十万Token,耗尽上下文容量,迫使稀疏采样丢失时间信息。

启发式压缩的不足

传统启发式压缩(如视觉相似度帧选择、固定间隔采样)缺乏下游任务感知,统一策略难适应不同查询需求;且不可学习,无法通过训练优化,限制压缩效果提升。

3

章节 03

X-Comp双层压缩架构:Token级与帧级的创新结合

X-Comp采用双层压缩架构,结合Token级与帧级压缩:

可学习的渐进式Token级压缩(LP-Comp)

将LLM部分层转为可学习渐进式压缩模块,通过监督学习优化,分层提炼从低级纹理到高级语义的特征,使VLM处理帧数增加2-4倍且保持性能。

基于问题条件的帧级压缩(QC-Comp)

利用LLM内部注意力分数识别与查询最相关的帧,优先保留高相关帧,实现同一视频针对不同问题的自适应处理。

缓解位置偏置

将长视频分割为短片段,采用局部注意力机制,减少长距离依赖干扰,平衡全局理解与局部感知。

4

章节 04

性能验证:数据高效调优与准确率提升

X-Comp基于VideoChat-Flash模型微调,采用数据高效的监督压缩调优策略:仅需标准监督微调数据的2.5%,却带来显著性能提升。在LVBench基准测试中,准确率从42.9%提升至46.2%,验证了压缩调优能聚焦关键信息、提升理解能力。

5

章节 05

技术意义与未来应用前景

技术意义

  1. 可学习压缩优于启发式:纳入端到端训练框架,针对任务优化;
  2. 分层压缩有效:Token级与帧级从不同粒度减少冗余;
  3. 自适应处理关键:基于问题动态调整注意力更灵活高效。

应用前景

该技术有望应用于视频监控分析、教育内容理解、体育赛事解说等长视频场景,未来VLM可处理更长视频且保持理解精度。