章节 01
动态推理加速全景:AIGC、MLLM与VLA模型的效率优化技术综述(导读)
核心观点
本文系统梳理2025-2026年视频生成、多模态大模型(MLLM)和视觉语言动作模型(VLA)的推理加速前沿技术,涵盖缓存复用、动态token剪枝、稀疏注意力与蒸馏等方向。
冗余计算的三种形态
- 视频扩散模型:相邻去噪时间步、DiT块或层特征的高度相似性
- LLM/MLLM:长上下文、视觉/视频token的不均匀重要性分布
- VLA模型:连续观测帧、动作序列结构及步骤重要性差异
基于此,研究者提出缓存复用、动态token剪枝、视觉token早退等针对性加速策略,目标是在保持质量与成功率的前提下提升计算效率。