# SEATS：全模态大语言模型的分阶段自适应Token选择优化

> 针对全模态大语言模型处理密集非文本token的计算开销问题，研究者提出SEATS分阶段自适应token选择方法，通过分析层间token依赖的块级衰减模式，实现训练无关的高效推理，在仅保留10%视听token的情况下达到9.3倍FLOPs缩减和96.3%性能保持。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-19T15:55:16.000Z
- 最近活动: 2026-05-20T02:52:10.134Z
- 热度: 138.1
- 关键词: 全模态大语言模型, token剪枝, 推理效率, 多模态融合, 注意力机制, 训练无关优化, 视觉语言模型
- 页面链接: https://www.zingnex.cn/forum/thread/seats-token
- Canonical: https://www.zingnex.cn/forum/thread/seats-token
- Markdown 来源: ingested_event

---

# SEATS：全模态大语言模型的分阶段自适应Token选择优化\n\n全模态大语言模型（Omni-modal LLMs, om-LLMs）正在重新定义人机交互的边界。它们能够同时理解视频、音频和文本，实现真正的多模态对话。然而，这种强大能力背后隐藏着巨大的计算代价——当视频帧和音频波形被编码成密集的token序列并与文本交错输入时，模型需要处理的海量token数量远超传统语言模型。\n\n## 全模态模型的计算困境\n\nom-LLMs的工作机制可以概括为：将视频和音频编码为与文本对齐的时间序列token，在窗口级别进行交错，然后统一输入到语言模型中进行理解和生成。这种设计虽然实现了模态间的深度融合，但也带来了严峻的效率挑战。\n\n以一个典型的视频-音频-文本场景为例：一段10秒的视频（30fps）会产生约300个视觉token，对应的音频可能产生数百个音频token，再加上文本指令，单次前向传播的token数量可能达到数千。当这些token需要经过数十层Transformer进行处理时，计算量和内存占用都变得难以承受。\n\n现有的token剪枝方法存在明显局限：\n\n1. **视觉中心主义**：大多数方法仅针对视觉输入设计，忽略了音频token的特殊性\n2. **静态策略**：在LLM输入前一次性剪枝，使用固定的模态比例，无法适应层间动态变化\n3. **忽视跨模态融合**：未能捕捉token重要性在跨模态融合过程中的演化规律\n\n## 层间依赖的深层洞察\n\n研究者通过对om-LLMs的深入分析，发现了一个关键规律：**视觉和音频token的层间依赖呈现块级模式，并随着深度逐渐衰减**。\n\n具体而言，在浅层（靠近输入端），视觉和音频token之间存在强烈的相互依赖，需要保留较多token以支持跨模态对齐。随着层数增加，模态间的信息逐渐融合，大量冗余token完成"使命"后可以安全移除。在深层，跨模态融合基本完成后，剩余的非文本token大多可以丢弃，模型主要依赖已经编码在文本表示中的融合信息。\n\n这一发现为自适应剪枝提供了理论依据：token保留策略不应是静态的，而应该随着处理阶段动态调整——浅层保守、中层渐进、深层激进。\n\n## SEATS的三阶段架构\n\n基于上述洞察，研究者提出了SEATS（Stage-adaptive Token Selection），一个训练无关的分阶段token选择框架。\n\n### 阶段一：输入前的时空冗余消除\n\n在token进入LLM之前，SEATS首先执行**注意力加权多样性选择**。这一步骤的目标是识别并移除视觉和音频token中的时空冗余。\n\n对于视觉token，系统计算每个token在时空维度上的注意力权重分布。高注意力权重意味着该token包含更多独特信息，应予以保留；低权重token往往对应静态背景或重复内容，可以安全丢弃。同时，系统采用多样性选择策略，确保保留的token在空间上均匀分布，避免过度集中于某些区域而忽略其他重要内容。\n\n对于音频token，类似地计算时频注意力分布，保留包含显著声学特征的token，丢弃静音段或高度重复的片段。\n\n### 阶段二：LLM内部的渐进式剪枝\n\n进入LLM后，SEATS实施**渐进式块级剪枝**。不同于一次性大幅削减，系统采用温和的渐进策略，在每个Transformer块后评估token重要性并移除最不重要的一部分。\n\n关键创新在于**动态预算分配**。系统维护一个总保留预算，并根据当前层的查询相关性分数动态分配这个预算给不同模态。具体而言：\n\n1. **查询相关性计算**：对于每个非文本token，计算其与当前查询（来自文本token）的相关性得分\n2. **模态级聚合**：分别汇总视觉和音频token的相关性分数，得到各模态的整体重要性\n3. **自适应分配**：根据重要性比例动态调整各模态的保留配额，重要的模态获得更多预算\n\n这种自适应机制确保系统能够灵活应对不同场景——在视觉主导的任务中保留更多视觉token，在音频关键的场景中优先保留音频信息。\n\n### 阶段三：深层融合后的完全剪枝\n\n在LLM的深层（通常是最后1/4到1/3的层），SEATS执行**完全非文本token剪枝**。此时，跨模态融合已基本完成，视觉和音频信息已经充分编码到文本表示中，剩余的非文本token不再提供额外价值。\n\n这一激进策略的依据是：深层Transformer主要进行高层语义推理，而非低层感知处理。此时，文本token携带的融合表示已经足够支持后续生成任务，原始视觉和音频token的存在反而成为计算负担。\n\n## 实现细节与优化技巧\n\nSEATS的实现包含若干关键技巧以确保高效和稳定：\n\n### 注意力权重的高效计算\n\n为避免引入额外计算开销，SEATS复用模型已有的注意力机制。在自注意力计算过程中，系统提取注意力矩阵的列和（即每个token被其他token关注的程度）作为重要性指标。这种设计确保token选择几乎是"免费"的——所需信息已经在前向传播中计算完毕。\n\n### 平滑过渡策略\n\n为避免剪枝带来的表示突变，SEATS采用平滑过渡策略。在相邻层之间，token保留率的变化被限制在一定范围内，确保模型能够适应逐渐减少的输入规模。这种渐进式变化比突然的大幅剪枝更有利于保持模型稳定性。\n\n### 模态平衡机制\n\n为防止某一模态过度主导预算分配，SEATS引入模态平衡机制。即使某个模态在特定层表现出极高的查询相关性，系统也会为其保留一个最小配额，确保其他模态的信息不会被完全压制。这种设计保证了多模态融合的全面性。\n\n## 实验评估与性能分析\n\n研究者在Qwen2.5-Omni和Qwen3-Omni两个主流om-LLM上评估了SEATS的性能。\n\n### 计算效率提升\n\n在激进配置下（仅保留10%的视觉和音频token），SEATS实现了惊人的效率提升：\n\n- **FLOPs缩减**：9.3倍\n- **Prefill阶段加速**：4.8倍\n- **端到端延迟**：显著降低\n\n这种效率提升主要来源于两个因素：一是token数量的直接减少，二是注意力计算复杂度的平方级下降（从O(n²)到O((0.1n)²) = O(0.01n²)）。\n\n### 性能保持\n\n令人印象深刻的是，在实现近10倍计算缩减的同时，SEATS保持了96.3%的原始性能。这意味着绝大多数任务上，用户几乎感受不到质量下降，却能享受显著的速度提升。\n\n细粒度分析显示，性能损失主要集中在需要细粒度视觉或音频细节的任务（如小物体识别、细微音调变化检测）。对于高层语义理解任务（如视频摘要、情感分析），性能保持率更高。\n\n### 不同保留率下的权衡\n\n实验还探索了不同token保留率下的效率-质量权衡曲线：\n\n- **保留50%**：性能保持98.5%，FLOPs缩减3.2倍\n- **保留25%**：性能保持97.4%，FLOPs缩减5.8倍\n- **保留10%**：性能保持96.3%，FLOPs缩减9.3倍\n- **保留5%**：性能保持92.1%，FLOPs缩减12.6倍\n\n这种可配置的权衡使SEATS能够适应不同应用场景——对质量敏感的场景选择保守配置，对延迟敏感的场景选择激进配置。\n\n## 对全模态系统设计的启示\n\nSEATS的研究成果对om-LLMs的系统设计具有深远影响：\n\n### 计算-质量的帕累托前沿\n\n传统观点认为，大幅削减计算必然导致显著的质量下降。SEATS挑战了这一假设，证明通过智能的token选择，可以在帕累托前沿上找到更优的权衡点——用极小的质量损失换取巨大的效率提升。\n\n### 训练无关优化的潜力\n\nSEATS的训练无关特性使其具有极强的实用价值。用户无需重新训练模型或准备特定数据集，即可将SEATS集成到现有系统中。这种"即插即用"的优化方式降低了采用门槛，加速了技术落地。\n\n### 模态融合的动态理解\n\nSEATS的成功建立在对om-LLMs内部工作机制的深刻理解之上。它揭示了跨模态融合是一个渐进过程，不同层承担不同功能——浅层对齐、中层融合、深层推理。这种分层理解为未来模型架构设计提供了指导。\n\n## 局限与未来方向\n\n尽管SEATS取得了显著成果，仍存在若干局限：\n\n1. **任务敏感性**：某些高度依赖细粒度感知的任务（如精确物体定位）对token剪枝更敏感，需要任务感知的自适应策略\n2. **长视频处理**：对于超长视频，时间维度的冗余更加复杂，可能需要引入时间层次化剪枝\n3. **音频特殊性**：当前方法对音频token的处理相对简单，未能充分利用音频的时频结构特性\n\n未来研究方向包括：\n\n- **任务感知剪枝**：根据具体任务需求动态调整剪枝策略，对关键模态给予更多保留预算\n- **层次化时间建模**：引入多尺度时间表示，在不同时间粒度上进行token选择\n- **联合优化**：将token选择与模型架构搜索结合，从设计阶段就考虑效率因素\n\n## 结语\n\nSEATS代表了全模态大语言模型效率优化领域的重要进展。通过深入理解om-LLMs的层间依赖模式，研究者设计出了一个既高效又通用的token选择框架。在AI应用日益多模态化的今天，这类优化技术将成为连接研究前沿与实际部署的关键桥梁。随着om-LLMs在智能助手、内容创作、教育辅助等领域的广泛应用，SEATS及其后续改进有望成为标准推理栈的重要组成部分。
