正文

StreamDyCoke：视频大语言模型的动态令牌压缩技术突破

StreamDyCoke是CVPR 2025论文DyCoke的流式扩展版本，专为实时视频大语言模型设计的动态令牌压缩技术，在保持模型性能的同时显著降低计算开销。

视频大语言模型令牌压缩实时推理多模态AICVPR 2025动态压缩流式处理

发布时间 2026/04/30 04:11最近活动 2026/04/30 04:19预计阅读 2 分钟

章节 01

StreamDyCoke：视频大语言模型动态令牌压缩技术突破（主楼）

StreamDyCoke是CVPR 2025论文DyCoke的流式扩展版本，专为实时视频大语言模型设计动态令牌压缩技术。它通过按需压缩策略，在保持模型性能的同时显著降低计算开销，解决视频数据高维度带来的令牌爆炸问题，满足实时应用需求。

章节 02

背景：视频大语言模型的计算瓶颈

随着多模态大语言模型（MLLM）发展，视频理解成为前沿，但视频高维度特性带来计算挑战：几秒视频含数百帧，每帧独立输入导致令牌数量膨胀至数千甚至数万。这引发推理延迟增加（无法实时）和计算资源消耗剧增（限制边缘部署）。传统均匀采样或固定帧丢弃法虽减少令牌，但易丢失关键信息导致性能下降。

章节 03

DyCoke：动态压缩的核心理念

DyCoke（Dynamic Compression）核心是“按需压缩”：根据内容复杂度动态调整每帧令牌密度。引入轻量化策略网络评估每帧视觉信息量，决定保留令牌数。静态/慢变化场景大幅压缩令牌，动作剧烈/信息丰富帧保留更多细节。该机制使平均令牌数量降低50%以上，同时保持较高准确率。

章节 04

StreamDyCoke：面向流式场景的工程创新

StreamDyCoke是DyCoke的流式扩展，针对实时视频流优化，解决原版需全局分析的局限，关键改进有三：

滑动窗口策略网络：维护固定大小历史帧缓冲区，策略网络基于局部窗口决策，时间复杂度从O(N²)降至O(W²)（W远小于总帧数）；
在线令牌缓存机制：缓存已处理帧压缩表示，新帧仅计算差异令牌，减少重复计算；
自适应帧率调节：时空联合优化，内容稳定时段降采样频率，变化剧烈时提高。

章节 05

技术实现与性能表现

StreamDyCoke基于PyTorch框架，兼容主流视频LLM（如LLaVA-Video、Video-LLaMA），提供即插即用压缩模块。评估显示：平均令牌减少60%时准确率仅降不到2%；端到端延迟从数百毫秒降至数十毫秒，满足30fps实时处理。且压缩策略可学习，通过端到端训练针对特定任务（动作识别、视频问答等）优化压缩模式。

章节 06