Zing 论坛

正文

STC:CVPR 2026 流式视频大语言模型加速框架,分层Token压缩实现实时推理

上海交通大学EPIC实验室提出的STC框架,通过分层Token压缩技术为流式视频大语言模型提供即插即用加速,在保持99%准确率的同时大幅降低推理延迟,已获CVPR 2026录用。

CVPR 2026视频大语言模型流式视频Token压缩推理加速上海交通大学计算机视觉深度学习GitHub开源
发布时间 2026/06/04 23:44最近活动 2026/06/04 23:50预计阅读 4 分钟
STC:CVPR 2026 流式视频大语言模型加速框架,分层Token压缩实现实时推理
1

章节 01

导读 / 主楼:STC:CVPR 2026 流式视频大语言模型加速框架,分层Token压缩实现实时推理

上海交通大学EPIC实验室提出的STC框架,通过分层Token压缩技术为流式视频大语言模型提供即插即用加速,在保持99%准确率的同时大幅降低推理延迟,已获CVPR 2026录用。

2

章节 02

原作者与来源


3

章节 03

研究背景与问题定义

视频大语言模型(Video LLMs)正在快速发展,但流式视频理解场景面临严峻的性能挑战。在实时直播、AR眼镜、长时监控等应用中,视频帧持续到达,传统方法需要对每一帧进行完整的视觉编码和LLM预填充,导致延迟累积,难以满足实时性要求。

流式视频理解的核心难点在于:

  1. 计算冗余:相邻视频帧之间存在大量时间冗余,完全重新编码每一帧效率低下
  2. 序列膨胀:长视频序列的Token数量巨大,LLM预填充时间随序列长度线性增长
  3. 实时约束:延迟敏感场景要求毫秒级响应,传统批处理方式不适用

4

章节 04

STC核心创新

STC (Streaming Token Compression) 是首个面向流式视频理解的即插即用推理加速框架,已被CVPR 2026录用。其核心创新体现在两个层面:

5

章节 05

1. STC-Cacher:智能视觉Token缓存

STC-Cacher利用视频的时间冗余特性,选择性只重新计算每帧中动态变化的视觉Token,其余Token从缓存中复用。

技术机制

  • 通过对比当前帧与参考帧的视觉特征,识别发生变化的空间区域
  • 仅对变化区域的Token进行重新编码,静态区域直接复用缓存
  • 每N帧设置一个完整参考帧,平衡缓存效率与漂移累积

性能收益:在ReKV框架上,ViT编码延迟降低24.5%

6

章节 06

2. STC-Pruner:分层Token压缩

在视觉编码完成后,STC-Pruner对Token序列进行压缩,在保留时空显著性的前提下减少LLM预填充的序列长度。

技术特点

  • 基于视觉显著性选择最重要的Token
  • 可配置每帧Token预算(如64 vs 196个完整Token)
  • 与Cacher协同工作,形成分层压缩 pipeline

性能收益:在ReKV框架上,LLM预填充延迟降低45.3%,同时保持高达99%的原始准确率


7

章节 07

框架兼容性与集成

STC设计为模型无关的核心组件,可快速集成到主流流式VideoLLM框架:

框架 视觉塔 STC-Cacher STC-Pruner 状态
ReKV SigLIP (LLaVA-OneVision) 参考实现
StreamForest SigLIP 每帧流式缓存
Dispider CLIP 每帧流式缓存
LiveCC 🔜 🔜 集成进行中

集成方式

  • STC-Cacher通过单行monkey-patch附加到任意HuggingFace pre-LN CLIP/SigLIP视觉塔
  • STC-Pruner作为显式调用,在LLM预填充前执行Token压缩

8

章节 08

主实验结果 (ReKV框架)

在OVO-Bench和StreamingBench基准测试上,STC相比基线和其他压缩方法表现优异:

方法 OVO实时 OVO回溯 OVO前瞻 StreamingBench ViT编码延迟 LLM预填充延迟
ReKV基线 64.4 64.6 52.6 69.1 103.7s 482.4s
+ ToMe 53.1 60.7 46.4 59.4 70.5s (↓32%) 257.8s (↓46.6%)
+ VisionZip 53.8 58.4 47.5 60.4 103.7s 258.3s (↓46.5%)
+ VidCom² 60.4 59.0 50.4 63.6 103.7s 259.1s (↓46.3%)
+ STC 62.5 63.3 52.0 65.2 78.3s (↓24.5%) 263.7s (↓45.3%)

关键发现

  • STC在保持高达99%准确率的同时实现显著加速
  • 相比VidCom²,在OVO-Bench和StreamingBench上分别提升1.6分
  • 相比ToMe,分别提升5.6分和5.8分