# STC：CVPR 2026 流式视频大语言模型加速框架，分层Token压缩实现实时推理

> 上海交通大学EPIC实验室提出的STC框架，通过分层Token压缩技术为流式视频大语言模型提供即插即用加速，在保持99%准确率的同时大幅降低推理延迟，已获CVPR 2026录用。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-06-04T15:44:54.000Z
- 最近活动: 2026-06-04T15:50:36.047Z
- 热度: 163.9
- 关键词: CVPR 2026, 视频大语言模型, 流式视频, Token压缩, 推理加速, 上海交通大学, 计算机视觉, 深度学习, GitHub, 开源
- 页面链接: https://www.zingnex.cn/forum/thread/stc-cvpr-2026-token
- Canonical: https://www.zingnex.cn/forum/thread/stc-cvpr-2026-token
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护方**: EPIC Lab, SJTU (上海交通大学智能计算实验室)
- **来源平台**: GitHub
- **原始标题**: STC: Accelerating Streaming Video Large Language Models via Hierarchical Token Compression
- **原始链接**: https://github.com/lern-to-write/STC
- **发布时间**: 2026年6月4日
- **论文链接**: https://arxiv.org/abs/2512.00891

---

## 研究背景与问题定义

视频大语言模型(Video LLMs)正在快速发展，但流式视频理解场景面临严峻的性能挑战。在实时直播、AR眼镜、长时监控等应用中，视频帧持续到达，传统方法需要对每一帧进行完整的视觉编码和LLM预填充，导致延迟累积，难以满足实时性要求。

流式视频理解的核心难点在于：
1. **计算冗余**：相邻视频帧之间存在大量时间冗余，完全重新编码每一帧效率低下
2. **序列膨胀**：长视频序列的Token数量巨大，LLM预填充时间随序列长度线性增长
3. **实时约束**：延迟敏感场景要求毫秒级响应，传统批处理方式不适用

---

## STC核心创新

STC (Streaming Token Compression) 是首个面向流式视频理解的即插即用推理加速框架，已被CVPR 2026录用。其核心创新体现在两个层面：

### 1. STC-Cacher：智能视觉Token缓存

STC-Cacher利用视频的时间冗余特性，选择性只重新计算每帧中动态变化的视觉Token，其余Token从缓存中复用。

**技术机制**：
- 通过对比当前帧与参考帧的视觉特征，识别发生变化的空间区域
- 仅对变化区域的Token进行重新编码，静态区域直接复用缓存
- 每N帧设置一个完整参考帧，平衡缓存效率与漂移累积

**性能收益**：在ReKV框架上，ViT编码延迟降低24.5%

### 2. STC-Pruner：分层Token压缩

在视觉编码完成后，STC-Pruner对Token序列进行压缩，在保留时空显著性的前提下减少LLM预填充的序列长度。

**技术特点**：
- 基于视觉显著性选择最重要的Token
- 可配置每帧Token预算(如64 vs 196个完整Token)
- 与Cacher协同工作，形成分层压缩 pipeline

**性能收益**：在ReKV框架上，LLM预填充延迟降低45.3%，同时保持高达99%的原始准确率

---

## 框架兼容性与集成

STC设计为模型无关的核心组件，可快速集成到主流流式VideoLLM框架：

| 框架 | 视觉塔 | STC-Cacher | STC-Pruner | 状态 |
|------|--------|------------|------------|------|
| ReKV | SigLIP (LLaVA-OneVision) | ✅ | ✅ | 参考实现 |
| StreamForest | SigLIP | ✅ | — | 每帧流式缓存 |
| Dispider | CLIP | ✅ | — | 每帧流式缓存 |
| LiveCC | — | 🔜 | 🔜 | 集成进行中 |

**集成方式**：
- STC-Cacher通过单行monkey-patch附加到任意HuggingFace pre-LN CLIP/SigLIP视觉塔
- STC-Pruner作为显式调用，在LLM预填充前执行Token压缩

---

## 实验结果与性能评估

### 主实验结果 (ReKV框架)

在OVO-Bench和StreamingBench基准测试上，STC相比基线和其他压缩方法表现优异：

| 方法 | OVO实时 | OVO回溯 | OVO前瞻 | StreamingBench | ViT编码延迟 | LLM预填充延迟 |
|------|---------|---------|---------|----------------|-------------|---------------|
| ReKV基线 | 64.4 | 64.6 | 52.6 | 69.1 | 103.7s | 482.4s |
| + ToMe | 53.1 | 60.7 | 46.4 | 59.4 | 70.5s (↓32%) | 257.8s (↓46.6%) |
| + VisionZip | 53.8 | 58.4 | 47.5 | 60.4 | 103.7s | 258.3s (↓46.5%) |
| + VidCom² | 60.4 | 59.0 | 50.4 | 63.6 | 103.7s | 259.1s (↓46.3%) |
| **+ STC** | **62.5** | **63.3** | **52.0** | **65.2** | **78.3s (↓24.5%)** | **263.7s (↓45.3%)** |

**关键发现**：
- STC在保持高达99%准确率的同时实现显著加速
- 相比VidCom²，在OVO-Bench和StreamingBench上分别提升1.6分
- 相比ToMe，分别提升5.6分和5.8分

### 跨框架验证

STC-Cacher在多个流式框架上均取得显著加速：

| 框架 | 实时 | 回溯 | 前瞻 | ViT编码延迟优化 |
|------|------|------|------|-----------------|
| Dispider | 51.0→49.1 | 40.1→36.6 | 40.4→39.2 | 26.4→18.9s (↓28.4%) |
| LiveCC | 57.0→53.8 | 56.4→54.2 | 59.7→57.3 | 181.2→126.8s (↓30%) |
| StreamForest | 61.6→59.1 | 70.8→68.2 | 54.3→52.3 | 103.7→67.7s (↓34.7%) |

### 传统视频理解基准

在EgoSchema、MLVU-dev、VideoMME等传统基准上，STC-Pruner同样表现优异：

| 方法 | EgoSchema | MLVU-dev | VideoMME | 平均 |
|------|-----------|----------|----------|------|
| ReKV | 57.7 | 68.6 | 57.7 | 61.3 |
| + ToMe | 55.2 | 63.1 | 51.7 | 56.7 |
| + VisionZip | 55.8 | 63.2 | 51.6 | 56.9 |
| + VidCom² | 60.6 | 67.1 | 56.8 | 61.5 |
| **+ STC-Pruner** | **60.8** | **67.6** | **57.1** | **61.8** |

---

## 技术实现与使用

### 安装

```bash
# 安装核心包
pip install -e .

# 完整安装(含HuggingFace CLIP/SigLIP集成)
pip install -e .[hf]
```

### 关键配置参数

```bash
export STC_PATCH_VISION=1              # 启用STC-Cacher (0=基线)
export STC_TOKEN_PER_FRAME=64          # STC-Pruner每帧Token预算 (196=完整)
export STC_UPDATE_TOKEN_RATIO=0.25     # STC-Cacher选择性重计算比例
export STC_CACHE_INTERVAL=4              # 每N帧设置完整参考帧
```

### 快速评估

仓库提供了完整的评估脚本，支持ReKV、StreamForest、Dispider等框架：

```bash
# 离线基准评估
export STC_PATCH_VISION=1 STC_TOKEN_PER_FRAME=64 STC_UPDATE_TOKEN_RATIO=0.25
bash scripts/eval_rekv/eval_offline_benchs.sh \
    --dataset mlvu --model llava_ov_7b --save_dir results/mlvu_stc

# OVO-Bench评估
bash scripts/eval_rekv/ovobench_scripts/eval_rekv.sh
```

---

## 研究团队与相关成果

本项目由上海交通大学EPIC实验室主导，团队成员来自多所知名高校：

- **Yiyu Wang**, **Xuyang Liu** (共同一作) - 上海交通大学
- **Xiyan Gui** - 华中科技大学
- **Xinying Lin** - 中山大学
- **Boxue Yang**, **Chenfei Liao**, **Tailai Chen**, **Linfeng Zhang** - 上海交大/港科广

**相关前置工作**：
- VidCom² (EMNLP 2025录用): 面向VideoLLM的即插即用加速方法

---

## 应用前景与实用价值

STC的技术方案特别适用于以下场景：

1. **实时直播分析**：体育赛事、新闻直播的实时内容理解
2. **AR/VR设备**：资源受限设备上的低延迟视频理解
3. **智能监控**：长时运行的视频流分析
4. **自动驾驶**：车载视频流的实时感知与决策

**核心优势**：
- **即插即用**：无需重新训练模型，一行代码即可集成
- **框架无关**：核心组件与具体模型架构解耦
- **效果显著**：延迟降低24-45%，准确率保持99%
- **生产就绪**：提供完整的评估基准和复现文档

---

## 关键要点总结

STC代表了流式视频大语言模型推理加速的重要进展：

1. **问题定位精准**：针对流式视频的时间冗余特性设计优化策略
2. **技术方案创新**：Cacher+Pruner的分层压缩架构，兼顾效率与效果
3. **实验验证充分**：在4个流式框架、5个基准测试上全面验证
4. **工程实现完善**：提供清晰的安装指南、配置参数和评估脚本
5. **学术价值显著**：CVPR 2026录用，代码完全开源

对于需要在延迟敏感场景部署视频大语言模型的开发者，STC提供了一个立即可用的性能优化方案。
