# 动态推理加速全景：AIGC、MLLM与VLA模型的效率优化技术综述

> 系统梳理2025-2026年视频生成、多模态大模型和视觉语言动作模型的推理加速前沿，涵盖缓存复用、动态token剪枝、稀疏注意力与蒸馏蒸馏等核心技术方向。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-19T09:48:06.000Z
- 最近活动: 2026-05-19T09:55:35.084Z
- 热度: 154.9
- 关键词: 推理加速, 视频生成, 多模态大模型, VLA, 动态剪枝, 缓存复用, 稀疏注意力, 扩散模型, 具身智能, 端侧部署
- 页面链接: https://www.zingnex.cn/forum/thread/aigcmllmvla
- Canonical: https://www.zingnex.cn/forum/thread/aigcmllmvla
- Markdown 来源: ingested_event

---

## 背景：大模型推理效率的迫切需求\n\n随着大语言模型、多模态模型和具身智能模型的快速发展，推理计算成本已成为制约AI应用落地的关键瓶颈。无论是AIGC领域的视频扩散模型，还是机器人领域的视觉语言动作模型（VLA），其庞大的参数量和复杂的计算图都使得实时推理成为一项巨大挑战。\n\n传统的模型压缩和量化技术虽然能够减小模型体积，但往往以牺牲精度为代价。近年来，研究者发现大模型推理过程中存在大量可复用、可剪枝或可提前退出的冗余计算，这为动态推理加速技术开辟了新的方向。大连理工大学整理的这份论文清单，系统性地梳理了2025-2026年该领域的最新进展，为研究者和工程师提供了宝贵的参考。\n\n## 核心洞察：冗余计算的三种形态\n\n该综述的核心观点指出，大模型推理中的冗余计算主要呈现三种形态。对于视频扩散模型，冗余主要来自相邻去噪时间步、相邻DiT块或相邻层特征的高度相似性；对于LLM和MLLM，冗余源于长上下文token、视觉token和视频token的不均匀重要性分布；而对于VLA模型，冗余则来自连续机器人观测帧、动作序列结构以及不同动作步骤的重要性差异。\n\n基于这一洞察，研究者提出了多种针对性的加速策略，包括缓存复用、动态token剪枝、视觉token早退、稀疏注意力、扩散蒸馏、动作token化等。这些技术的共同目标是在保持生成质量和任务成功率的前提下，最大化计算效率。\n\n## 技术分类：六大加速策略全景\n\n综述将现有工作归纳为六大技术类别，每类都有其独特的适用场景和研究切入点。\n\n缓存复用技术是最成熟的加速方向之一。TeaCache、AdaCache、EasyCache、BWCache等方法通过识别相邻时间步或层之间的特征相似性，复用中间计算结果而非重新计算。这类方法的工程落地价值高，适合作为插件式加速方案集成到现有系统中。\n\n动态token剪枝技术针对LLM和MLLM中的token冗余问题。SDTP、SlimInfer、ATP-LLaVA等方法逐层估计token重要性，动态保留关键token并剪枝次要token。这类方法需要解决的核心挑战是如何可靠地评估token重要性，以及如何处理被剪枝token可能带来的信息损失。\n\n早退与层跳过技术探索了不同样本、不同视觉token或不同动作步骤不一定需要完整计算深度的洞察。DyVTE、DySL-VLA等方法允许模型在达到一定置信度后提前退出，从而节省后续层的计算开销。\n\n稀疏注意力技术针对视频DiT模型中巨大的注意力计算开销。PASA等方法根据生成轨迹动态分配注意力预算，在加速的同时缓解视频闪烁等质量问题。\n\n少步蒸馏技术通过减少扩散采样步数来加速生成过程。RMD、DisCa等方法研究跨分辨率分布匹配，使缓存策略与蒸馏训练更好地兼容。\n\n动作表示优化技术专为VLA模型设计。FAST、OpenVLA-OFT等方法将高频连续动作转化为更短、更稳定的动作token或动作块，显著降低动作生成的延迟。\n\n## AIGC视频生成加速：从时间步到块级缓存\n\n视频扩散模型的推理加速是一个多层次优化问题。在时间步维度，TeaCache利用时间步嵌入估计相邻去噪步的输出差异，决定何时复用缓存。这种方法的直观理解是：扩散模型的去噪过程在早期时间步变化剧烈，后期则趋于稳定，因此可以在稳定阶段更多地复用缓存结果。\n\n在DiT块级别，BWCache发现特征变化呈现U型分布：浅层和深层变化较大，中间层相对稳定。基于这一观察，该方法提出了块级动态缓存策略，在不同层采用不同的缓存频率。\n\nAdaCache进一步引入了自适应机制，根据不同视频的生成难度动态设计缓存调度，而非使用固定间隔。这种样本感知的策略在保持质量的同时实现了更高的加速比。\n\nEasyCache则提出了一种训练无关的运行时自适应缓存方案，无需离线性能分析或大量参数搜索，具有更高的工程实用性。\n\n## MLLM加速：视觉token的精细化管理\n\n多模态大模型的推理瓶颈很大程度上来自视觉token的数量。一张高分辨率图像经过ViT编码后可能产生数千个视觉token，远超文本token的数量级。\n\nDyVTE提出了视觉token动态早退机制：当文本token已获得足够视觉信息后，允许视觉token在后续层中退出计算。这一方法的关键在于判断"何时信息已足够"，需要设计可靠的退出准则。\n\nATP-LLaVA则采用实例级、层级的自适应视觉token剪枝策略，根据当前输入和层深度动态决定保留哪些token。然而，该方法的一个局限是被剪枝的token后续不可恢复，可能在某些复杂场景下造成信息损失。\n\nDTP进一步针对VLA场景，动态剪掉与任务无关的干扰性视觉token，使模型更专注于与动作决策相关的图像区域。\n\n## VLA加速：从感知到动作的端到端优化\n\n视觉语言动作模型的加速面临独特挑战：速度提升不能以牺牲控制稳定性为代价。OpenVLA-OFT通过并行解码、动作块化和连续动作表示，在提升速度的同时保持任务成功率。\n\nVLA-Cache识别出连续机器人观测帧中变化较小的视觉token，通过KV缓存复用计算结果。该方法报告了约1.7倍的CUDA延迟降低，说明机器人控制场景仍有很大的系统级优化空间。\n\nSmolVLA则走了一条不同的路线：设计小型VLA架构，并使用异步推理栈解耦感知、动作预测与动作执行。这种架构特别适合端侧、低成本的机器人部署。\n\nStable-FAST进一步研究了自回归VLA模型的推理稳定性问题，指出动作不稳定性本身就是影响真实部署的关键因素，加速方法必须同时考虑控制平滑性。\n\n## 研究空白与未来方向\n\n综述坦诚地指出了当前研究的六大空白。实时推理仍未完全解决，现有方法的加速比距离真正的实时视频生成仍有明显差距。速度与质量的矛盾依然存在，缓存、剪枝和蒸馏都会引入误差累积，未来方法需要显式建模质量损失与误差传播。\n\n动态评分机制不够可靠，MLLM领域的研究已经开始质疑基于注意力的评分是否真正有效。被移除或跳过的信息难以恢复，这是一个根本性的设计局限，值得研究可恢复的剪枝、软缓存或不确定性触发的重新计算机制。\n\nFLOPs降低不等于延迟降低，真实系统中的批处理同步、KV缓存管理、GPU并行效率等因素会显著影响最终延迟。VLA加速不能忽视控制稳定性，速度问题必须与机器人控制性能联合优化。\n\n## 建议的研究切入点\n\n综述提出了三个更有价值的研究方向。可恢复动态计算在token剪枝、视觉token退出和层跳过中加入可恢复机制，避免早期误判造成不可逆信息损失。任务敏感误差控制不仅约束图像质量或语言指标，还引入动作稳定性、检测分割性能、机器人成功率等任务反馈。硬件友好调度将动态策略与KV缓存、批处理、GPU并行、FlashAttention和端侧部署机制联合设计。\n\n这些方向的核心思想是：推理加速不应仅仅追求理论计算量的减少，而应关注真实部署场景中的端到端性能和系统稳定性。\n\n## 阅读路线图与实践建议\n\n对于希望深入该领域的读者，综述提供了清晰的学习路径。缓存复用入门建议从SmoothCache到TeaCache、AdaCache、EasyCache、BWCache的顺序阅读，逐步理解从静态到动态、从固定到自适应的演进脉络。\n\n动态token方法建议从SDTP到ATP-LLaVA、DyVTE、DyCoke，理解token重要性评估的不同策略。VLA加速主线建议从FAST到OpenVLA-OFT、VLA-Cache、EfficientVLA、Stable-FAST，把握动作表示优化到系统级部署的完整链条。\n\n最后，从实时性、质量损失、动态判断、可恢复性、硬件友好、控制稳定性六个角度组织调研报告，能够形成对该领域的系统性理解。