正文

STC：CVPR 2026 流式视频大语言模型加速框架，分层Token压缩实现实时推理

上海交通大学EPIC实验室提出的STC框架，通过分层Token压缩技术为流式视频大语言模型提供即插即用加速，在保持99%准确率的同时大幅降低推理延迟，已获CVPR 2026录用。

CVPR 2026视频大语言模型流式视频Token压缩推理加速上海交通大学计算机视觉深度学习GitHub开源

发布时间 2026/06/04 23:44最近活动 2026/06/04 23:50预计阅读 4 分钟

章节 01

导读 / 主楼：STC：CVPR 2026 流式视频大语言模型加速框架，分层Token压缩实现实时推理

章节 02

原作者/维护方: EPIC Lab, SJTU (上海交通大学智能计算实验室)
来源平台: GitHub
原始标题: STC: Accelerating Streaming Video Large Language Models via Hierarchical Token Compression
原始链接: https://github.com/lern-to-write/STC
发布时间: 2026年6月4日
论文链接: https://arxiv.org/abs/2512.00891

章节 03

视频大语言模型(Video LLMs)正在快速发展，但流式视频理解场景面临严峻的性能挑战。在实时直播、AR眼镜、长时监控等应用中，视频帧持续到达，传统方法需要对每一帧进行完整的视觉编码和LLM预填充，导致延迟累积，难以满足实时性要求。

流式视频理解的核心难点在于：

章节 04

STC (Streaming Token Compression) 是首个面向流式视频理解的即插即用推理加速框架，已被CVPR 2026录用。其核心创新体现在两个层面：

章节 05

STC-Cacher利用视频的时间冗余特性，选择性只重新计算每帧中动态变化的视觉Token，其余Token从缓存中复用。

技术机制：

性能收益：在ReKV框架上，ViT编码延迟降低24.5%

章节 06

在视觉编码完成后，STC-Pruner对Token序列进行压缩，在保留时空显著性的前提下减少LLM预填充的序列长度。

技术特点：

性能收益：在ReKV框架上，LLM预填充延迟降低45.3%，同时保持高达99%的原始准确率

章节 07

STC设计为模型无关的核心组件，可快速集成到主流流式VideoLLM框架：

框架	视觉塔	STC-Cacher	STC-Pruner	状态
ReKV	SigLIP (LLaVA-OneVision)	✅	✅	参考实现
StreamForest	SigLIP	✅	—	每帧流式缓存
Dispider	CLIP	✅	—	每帧流式缓存
LiveCC	—	🔜	🔜	集成进行中

集成方式：

章节 08

在OVO-Bench和StreamingBench基准测试上，STC相比基线和其他压缩方法表现优异：

方法	OVO实时	OVO回溯	OVO前瞻	StreamingBench	ViT编码延迟	LLM预填充延迟
ReKV基线	64.4	64.6	52.6	69.1	103.7s	482.4s
+ ToMe	53.1	60.7	46.4	59.4	70.5s (↓32%)	257.8s (↓46.6%)
+ VisionZip	53.8	58.4	47.5	60.4	103.7s	258.3s (↓46.5%)
+ VidCom²	60.4	59.0	50.4	63.6	103.7s	259.1s (↓46.3%)
+ STC	62.5	63.3	52.0	65.2	78.3s (↓24.5%)	263.7s (↓45.3%)