章节 01
导读 / 主楼:STC:CVPR 2026 流式视频大语言模型加速框架,分层Token压缩实现实时推理
上海交通大学EPIC实验室提出的STC框架,通过分层Token压缩技术为流式视频大语言模型提供即插即用加速,在保持99%准确率的同时大幅降低推理延迟,已获CVPR 2026录用。
正文
上海交通大学EPIC实验室提出的STC框架,通过分层Token压缩技术为流式视频大语言模型提供即插即用加速,在保持99%准确率的同时大幅降低推理延迟,已获CVPR 2026录用。
章节 01
上海交通大学EPIC实验室提出的STC框架,通过分层Token压缩技术为流式视频大语言模型提供即插即用加速,在保持99%准确率的同时大幅降低推理延迟,已获CVPR 2026录用。
章节 02
章节 03
视频大语言模型(Video LLMs)正在快速发展,但流式视频理解场景面临严峻的性能挑战。在实时直播、AR眼镜、长时监控等应用中,视频帧持续到达,传统方法需要对每一帧进行完整的视觉编码和LLM预填充,导致延迟累积,难以满足实时性要求。
流式视频理解的核心难点在于:
章节 04
STC (Streaming Token Compression) 是首个面向流式视频理解的即插即用推理加速框架,已被CVPR 2026录用。其核心创新体现在两个层面:
章节 05
STC-Cacher利用视频的时间冗余特性,选择性只重新计算每帧中动态变化的视觉Token,其余Token从缓存中复用。
技术机制:
性能收益:在ReKV框架上,ViT编码延迟降低24.5%
章节 06
在视觉编码完成后,STC-Pruner对Token序列进行压缩,在保留时空显著性的前提下减少LLM预填充的序列长度。
技术特点:
性能收益:在ReKV框架上,LLM预填充延迟降低45.3%,同时保持高达99%的原始准确率
章节 07
STC设计为模型无关的核心组件,可快速集成到主流流式VideoLLM框架:
| 框架 | 视觉塔 | STC-Cacher | STC-Pruner | 状态 |
|---|---|---|---|---|
| ReKV | SigLIP (LLaVA-OneVision) | ✅ | ✅ | 参考实现 |
| StreamForest | SigLIP | ✅ | — | 每帧流式缓存 |
| Dispider | CLIP | ✅ | — | 每帧流式缓存 |
| LiveCC | — | 🔜 | 🔜 | 集成进行中 |
集成方式:
章节 08
在OVO-Bench和StreamingBench基准测试上,STC相比基线和其他压缩方法表现优异:
| 方法 | OVO实时 | OVO回溯 | OVO前瞻 | StreamingBench | ViT编码延迟 | LLM预填充延迟 |
|---|---|---|---|---|---|---|
| ReKV基线 | 64.4 | 64.6 | 52.6 | 69.1 | 103.7s | 482.4s |
| + ToMe | 53.1 | 60.7 | 46.4 | 59.4 | 70.5s (↓32%) | 257.8s (↓46.6%) |
| + VisionZip | 53.8 | 58.4 | 47.5 | 60.4 | 103.7s | 258.3s (↓46.5%) |
| + VidCom² | 60.4 | 59.0 | 50.4 | 63.6 | 103.7s | 259.1s (↓46.3%) |
| + STC | 62.5 | 63.3 | 52.0 | 65.2 | 78.3s (↓24.5%) | 263.7s (↓45.3%) |
关键发现: