Zing 论坛

正文

动态推理加速全景:AIGC、MLLM与VLA模型的效率优化技术综述

系统梳理2025-2026年视频生成、多模态大模型和视觉语言动作模型的推理加速前沿,涵盖缓存复用、动态token剪枝、稀疏注意力与蒸馏蒸馏等核心技术方向。

推理加速视频生成多模态大模型VLA动态剪枝缓存复用稀疏注意力扩散模型具身智能端侧部署
发布时间 2026/05/19 17:48最近活动 2026/05/19 17:55预计阅读 4 分钟
动态推理加速全景:AIGC、MLLM与VLA模型的效率优化技术综述
1

章节 01

动态推理加速全景:AIGC、MLLM与VLA模型的效率优化技术综述(导读)

核心观点

本文系统梳理2025-2026年视频生成、多模态大模型(MLLM)和视觉语言动作模型(VLA)的推理加速前沿技术,涵盖缓存复用、动态token剪枝、稀疏注意力与蒸馏等方向。

冗余计算的三种形态

  • 视频扩散模型:相邻去噪时间步、DiT块或层特征的高度相似性
  • LLM/MLLM:长上下文、视觉/视频token的不均匀重要性分布
  • VLA模型:连续观测帧、动作序列结构及步骤重要性差异

基于此,研究者提出缓存复用、动态token剪枝、视觉token早退等针对性加速策略,目标是在保持质量与成功率的前提下提升计算效率。

2

章节 02

背景:大模型推理效率的迫切需求

随着大语言模型、多模态模型和具身智能模型的快速发展,推理计算成本已成为AI应用落地的关键瓶颈。无论是AIGC领域的视频扩散模型,还是机器人领域的VLA模型,庞大参数量与复杂计算图使得实时推理极具挑战。

传统压缩与量化技术常以精度为代价,而近年研究发现推理过程中存在大量可复用、剪枝或提前退出的冗余计算,为动态推理加速开辟新方向。本综述系统性梳理2025-2026年该领域最新进展,为研究者与工程师提供参考。

3

章节 03

核心技术策略:六大动态推理加速方向

综述将现有工作归纳为六大技术类别:

  1. 缓存复用:TeaCache、AdaCache等通过识别特征相似性复用中间结果,工程落地价值高。
  2. 动态token剪枝:SDTP、SlimInfer等逐层估计token重要性,剪枝次要token(核心挑战:重要性评估与信息损失处理)。
  3. 早退与层跳过:DyVTE、DySL-VLA等允许模型达到置信度后提前退出,节省计算开销。
  4. 稀疏注意力:PASA等动态分配注意力预算,缓解视频闪烁问题。
  5. 少步蒸馏:RMD、DisCa等减少扩散采样步数,优化跨分辨率分布匹配。
  6. 动作表示优化:FAST、OpenVLA-OFT等将连续动作转化为短token/块,降低延迟。
4

章节 04

AIGC视频生成加速:多层次缓存复用实践

视频扩散模型加速需多层次优化:

  • 时间步维度:TeaCache利用时间步嵌入估计相邻去噪步差异,稳定阶段复用缓存。
  • DiT块级别:BWCache发现特征变化呈U型分布(浅层/深层变化大,中间层稳定),采用块级动态缓存。
  • 自适应机制:AdaCache根据视频生成难度动态调度缓存,提升加速比;EasyCache提出训练无关的运行时自适应方案,工程实用性强。
5

章节 05

MLLM与VLA加速:视觉token管理与端侧优化

MLLM加速:视觉token精细化管理

  • DyVTE:视觉token动态早退,文本token获足够信息后退出后续计算。
  • ATP-LLaVA:实例级、层级自适应视觉token剪枝(局限:剪枝token不可恢复)。
  • DTP:针对VLA场景,剪掉与任务无关的干扰视觉token。

VLA加速:端到端优化

  • OpenVLA-OFT:并行解码+动作块化+连续动作表示,提升速度且保持成功率。
  • VLA-Cache:复用连续观测帧中稳定的视觉token KV缓存,降低CUDA延迟约1.7倍。
  • SmolVLA:小型架构+异步推理栈,适合端侧低成本部署。
  • Stable-FAST:关注自回归VLA推理稳定性,联合优化速度与控制平滑性。
6

章节 06

研究空白与未来方向

当前研究存在六大空白:

  1. 实时推理未完全解决,加速比距真实实时视频生成有差距。
  2. 速度与质量矛盾:缓存、剪枝、蒸馏引入误差累积,需显式建模质量损失与传播。
  3. 动态评分机制不可靠:MLLM领域质疑注意力评分有效性。
  4. 被移除信息难以恢复:需研究可恢复剪枝、软缓存或不确定性触发重计算。
  5. FLOPs降低≠延迟降低:真实系统中批处理、KV缓存等影响最终延迟。
  6. VLA加速需兼顾控制稳定性:速度与机器人性能需联合优化。

未来方向应聚焦上述空白,探索更鲁棒的动态推理技术。

7

章节 07

研究建议与阅读路线图

建议研究切入点

  1. 可恢复动态计算:在剪枝/早退中加入可恢复机制,避免早期误判损失。
  2. 任务敏感误差控制:引入动作稳定性、机器人成功率等任务反馈约束。
  3. 硬件友好调度:将动态策略与KV缓存、GPU并行、端侧部署联合设计。

阅读路线图

  • 缓存复用:SmoothCache → TeaCache → AdaCache → EasyCache → BWCache
  • 动态token方法:SDTP → ATP-LLaVA → DyVTE → DyCoke
  • VLA加速:FAST → OpenVLA-OFT → VLA-Cache → EfficientVLA → Stable-FAST

从实时性、质量损失、动态判断等六个角度组织调研,可形成系统性理解。