正文

动态推理加速全景：AIGC、MLLM与VLA模型的效率优化技术综述

系统梳理2025-2026年视频生成、多模态大模型和视觉语言动作模型的推理加速前沿，涵盖缓存复用、动态token剪枝、稀疏注意力与蒸馏蒸馏等核心技术方向。

推理加速视频生成多模态大模型VLA动态剪枝缓存复用稀疏注意力扩散模型具身智能端侧部署

发布时间 2026/05/19 17:48最近活动 2026/05/19 17:55预计阅读 4 分钟

章节 01

动态推理加速全景：AIGC、MLLM与VLA模型的效率优化技术综述（导读）

核心观点

本文系统梳理2025-2026年视频生成、多模态大模型（MLLM）和视觉语言动作模型（VLA）的推理加速前沿技术，涵盖缓存复用、动态token剪枝、稀疏注意力与蒸馏等方向。

冗余计算的三种形态

视频扩散模型：相邻去噪时间步、DiT块或层特征的高度相似性
LLM/MLLM：长上下文、视觉/视频token的不均匀重要性分布
VLA模型：连续观测帧、动作序列结构及步骤重要性差异

基于此，研究者提出缓存复用、动态token剪枝、视觉token早退等针对性加速策略，目标是在保持质量与成功率的前提下提升计算效率。

章节 02

背景：大模型推理效率的迫切需求

随着大语言模型、多模态模型和具身智能模型的快速发展，推理计算成本已成为AI应用落地的关键瓶颈。无论是AIGC领域的视频扩散模型，还是机器人领域的VLA模型，庞大参数量与复杂计算图使得实时推理极具挑战。

传统压缩与量化技术常以精度为代价，而近年研究发现推理过程中存在大量可复用、剪枝或提前退出的冗余计算，为动态推理加速开辟新方向。本综述系统性梳理2025-2026年该领域最新进展，为研究者与工程师提供参考。

章节 03

核心技术策略：六大动态推理加速方向

综述将现有工作归纳为六大技术类别：

缓存复用：TeaCache、AdaCache等通过识别特征相似性复用中间结果，工程落地价值高。
动态token剪枝：SDTP、SlimInfer等逐层估计token重要性，剪枝次要token（核心挑战：重要性评估与信息损失处理）。
早退与层跳过：DyVTE、DySL-VLA等允许模型达到置信度后提前退出，节省计算开销。
稀疏注意力：PASA等动态分配注意力预算，缓解视频闪烁问题。
少步蒸馏：RMD、DisCa等减少扩散采样步数，优化跨分辨率分布匹配。
动作表示优化：FAST、OpenVLA-OFT等将连续动作转化为短token/块，降低延迟。

章节 04

AIGC视频生成加速：多层次缓存复用实践

视频扩散模型加速需多层次优化：

时间步维度：TeaCache利用时间步嵌入估计相邻去噪步差异，稳定阶段复用缓存。
DiT块级别：BWCache发现特征变化呈U型分布（浅层/深层变化大，中间层稳定），采用块级动态缓存。
自适应机制：AdaCache根据视频生成难度动态调度缓存，提升加速比；EasyCache提出训练无关的运行时自适应方案，工程实用性强。

章节 05

MLLM与VLA加速：视觉token管理与端侧优化

MLLM加速：视觉token精细化管理

DyVTE：视觉token动态早退，文本token获足够信息后退出后续计算。
ATP-LLaVA：实例级、层级自适应视觉token剪枝（局限：剪枝token不可恢复）。
DTP：针对VLA场景，剪掉与任务无关的干扰视觉token。

VLA加速：端到端优化

OpenVLA-OFT：并行解码+动作块化+连续动作表示，提升速度且保持成功率。
VLA-Cache：复用连续观测帧中稳定的视觉token KV缓存，降低CUDA延迟约1.7倍。
SmolVLA：小型架构+异步推理栈，适合端侧低成本部署。
Stable-FAST：关注自回归VLA推理稳定性，联合优化速度与控制平滑性。

章节 06

研究空白与未来方向

当前研究存在六大空白：

实时推理未完全解决，加速比距真实实时视频生成有差距。
速度与质量矛盾：缓存、剪枝、蒸馏引入误差累积，需显式建模质量损失与传播。
动态评分机制不可靠：MLLM领域质疑注意力评分有效性。
被移除信息难以恢复：需研究可恢复剪枝、软缓存或不确定性触发重计算。
FLOPs降低≠延迟降低：真实系统中批处理、KV缓存等影响最终延迟。
VLA加速需兼顾控制稳定性：速度与机器人性能需联合优化。

未来方向应聚焦上述空白，探索更鲁棒的动态推理技术。

章节 07

研究建议与阅读路线图

建议研究切入点

可恢复动态计算：在剪枝/早退中加入可恢复机制，避免早期误判损失。
任务敏感误差控制：引入动作稳定性、机器人成功率等任务反馈约束。
硬件友好调度：将动态策略与KV缓存、GPU并行、端侧部署联合设计。

阅读路线图

缓存复用：SmoothCache → TeaCache → AdaCache → EasyCache → BWCache
动态token方法：SDTP → ATP-LLaVA → DyVTE → DyCoke
VLA加速：FAST → OpenVLA-OFT → VLA-Cache → EfficientVLA → Stable-FAST

从实时性、质量损失、动态判断等六个角度组织调研，可形成系统性理解。