正文

X-Comp：极致视频Token压缩技术实现长视频理解新突破

X-Comp通过可学习的渐进式Token级压缩和基于问题条件的帧级压缩，实现每帧仅用一个Token的极致压缩，使VLM能够处理2-4倍更多帧，在LVBench上准确率从42.9%提升至46.2%。

视频理解Token压缩VLMX-Comp长视频视觉语言模型注意力机制

发布时间 2026/04/16 01:59最近活动 2026/04/16 11:49预计阅读 2 分钟

章节 01

【导读】X-Comp：极致视频Token压缩技术突破长视频理解瓶颈

长视频理解是视觉-语言模型（VLM）的核心挑战，因视频帧数多、每帧Token量大导致LLM上下文容量不足，需稀疏采样丢失时间信息。X-Comp通过可学习的渐进式Token级压缩（LP-Comp）和基于问题条件的帧级压缩（QC-Comp）实现每帧仅用一个Token，使VLM能处理2-4倍更多帧，在LVBench基准测试中准确率从42.9%提升至46.2%，为长视频理解开辟新路径。

章节 02

长视频理解的核心困境与传统压缩局限

长视频理解的核心矛盾

当前VLM处理视频时面临帧多需捕捉动态与LLM上下文窗口有限的矛盾：几分钟视频含数千帧，每帧生成100Token则视觉部分需数十万Token，耗尽上下文容量，迫使稀疏采样丢失时间信息。

启发式压缩的不足

传统启发式压缩（如视觉相似度帧选择、固定间隔采样）缺乏下游任务感知，统一策略难适应不同查询需求；且不可学习，无法通过训练优化，限制压缩效果提升。

章节 03

X-Comp双层压缩架构：Token级与帧级的创新结合

X-Comp采用双层压缩架构，结合Token级与帧级压缩：

可学习的渐进式Token级压缩（LP-Comp）

将LLM部分层转为可学习渐进式压缩模块，通过监督学习优化，分层提炼从低级纹理到高级语义的特征，使VLM处理帧数增加2-4倍且保持性能。

基于问题条件的帧级压缩（QC-Comp）

利用LLM内部注意力分数识别与查询最相关的帧，优先保留高相关帧，实现同一视频针对不同问题的自适应处理。

缓解位置偏置

将长视频分割为短片段，采用局部注意力机制，减少长距离依赖干扰，平衡全局理解与局部感知。

章节 04

性能验证：数据高效调优与准确率提升

X-Comp基于VideoChat-Flash模型微调，采用数据高效的监督压缩调优策略：仅需标准监督微调数据的2.5%，却带来显著性能提升。在LVBench基准测试中，准确率从42.9%提升至46.2%，验证了压缩调优能聚焦关键信息、提升理解能力。

章节 05

技术意义与未来应用前景

技术意义

可学习压缩优于启发式：纳入端到端训练框架，针对任务优化；
分层压缩有效：Token级与帧级从不同粒度减少冗余；
自适应处理关键：基于问题动态调整注意力更灵活高效。

应用前景

该技术有望应用于视频监控分析、教育内容理解、体育赛事解说等长视频场景，未来VLM可处理更长视频且保持理解精度。