章节 01
【导读】X-Comp:极致视频Token压缩技术突破长视频理解瓶颈
长视频理解是视觉-语言模型(VLM)的核心挑战,因视频帧数多、每帧Token量大导致LLM上下文容量不足,需稀疏采样丢失时间信息。X-Comp通过可学习的渐进式Token级压缩(LP-Comp)和基于问题条件的帧级压缩(QC-Comp)实现每帧仅用一个Token,使VLM能处理2-4倍更多帧,在LVBench基准测试中准确率从42.9%提升至46.2%,为长视频理解开辟新路径。
正文
X-Comp通过可学习的渐进式Token级压缩和基于问题条件的帧级压缩,实现每帧仅用一个Token的极致压缩,使VLM能够处理2-4倍更多帧,在LVBench上准确率从42.9%提升至46.2%。
章节 01
长视频理解是视觉-语言模型(VLM)的核心挑战,因视频帧数多、每帧Token量大导致LLM上下文容量不足,需稀疏采样丢失时间信息。X-Comp通过可学习的渐进式Token级压缩(LP-Comp)和基于问题条件的帧级压缩(QC-Comp)实现每帧仅用一个Token,使VLM能处理2-4倍更多帧,在LVBench基准测试中准确率从42.9%提升至46.2%,为长视频理解开辟新路径。
章节 02
当前VLM处理视频时面临帧多需捕捉动态与LLM上下文窗口有限的矛盾:几分钟视频含数千帧,每帧生成100Token则视觉部分需数十万Token,耗尽上下文容量,迫使稀疏采样丢失时间信息。
传统启发式压缩(如视觉相似度帧选择、固定间隔采样)缺乏下游任务感知,统一策略难适应不同查询需求;且不可学习,无法通过训练优化,限制压缩效果提升。
章节 03
X-Comp采用双层压缩架构,结合Token级与帧级压缩:
将LLM部分层转为可学习渐进式压缩模块,通过监督学习优化,分层提炼从低级纹理到高级语义的特征,使VLM处理帧数增加2-4倍且保持性能。
利用LLM内部注意力分数识别与查询最相关的帧,优先保留高相关帧,实现同一视频针对不同问题的自适应处理。
将长视频分割为短片段,采用局部注意力机制,减少长距离依赖干扰,平衡全局理解与局部感知。
章节 04
X-Comp基于VideoChat-Flash模型微调,采用数据高效的监督压缩调优策略:仅需标准监督微调数据的2.5%,却带来显著性能提升。在LVBench基准测试中,准确率从42.9%提升至46.2%,验证了压缩调优能聚焦关键信息、提升理解能力。
章节 05
该技术有望应用于视频监控分析、教育内容理解、体育赛事解说等长视频场景,未来VLM可处理更长视频且保持理解精度。