正文

GELATO：基于生成熵与李雅普诺夫的端边协同推测解码自适应Token卸载框架

GELATO框架通过漂移-惩罚循环和嵌套熵驱动生成机制，在资源受限的端边协同推测解码系统中实现能量约束下的解码吞吐量最大化，吞吐量提升64.98%，能耗降低47.47%。

端边协同推理推测解码李雅普诺夫优化生成熵端侧AI资源调度能量效率

发布时间 2026/05/11 15:38最近活动 2026/05/12 10:51预计阅读 3 分钟

章节 01

GELATO框架导读：端边协同推测解码的自适应Token卸载方案

GELATO（基于生成熵与李雅普诺夫的端边协同推测解码自适应Token卸载框架）通过漂移-惩罚循环和嵌套熵驱动生成机制，在资源受限的端边协同推测解码系统中实现能量约束下的解码吞吐量最大化。实验结果显示，该框架使吞吐量提升64.98%，能耗降低47.47%，为端侧大型语言模型（LLM）推理优化提供了新方案。

章节 02

端侧AI推理的挑战与推测解码现状

端侧AI推理的崛起与挑战

随着LLM能力提升，端侧部署需求迫切，但端侧设备计算资源和电池容量有限，运行大模型面临严峻挑战。端边协同推理架构应运而生，将任务在终端与边缘服务器智能分配，推测解码是其中最有前景的技术路线之一。

推测解码工作原理

利用端侧轻量级草稿模型快速生成候选token序列，提交边缘目标模型批量验证，可降低延迟、优化带宽且保持输出质量。但现有静态策略（固定草稿模型、验证阈值等）无法适应动态生成不确定性，导致资源利用效率低下。

章节 03

GELATO框架核心：双层级自适应机制

GELATO框架通过双层级自适应机制应对端边环境挑战：

外层循环：漂移-惩罚决策

采用李雅普诺夫优化框架，维护能量赤字队列跟踪能耗偏差。通过漂移项（惩罚能量赤字增长）和惩罚项（权衡吞吐量收益）调节资源分配，实现长期能量约束下的在线优化。

内层机制：熵驱动生成

利用生成熵量化token不确定性：低熵时草稿模型提前退出提交验证，高熵时增加计算深度，动态调整采样策略，实现精细化资源分配。

章节 04

GELATO的理论性能保证

GELATO框架具有坚实理论基础：

长期吞吐量最优性：满足能量约束前提下，吞吐量收敛于理论最优值；
能量约束满足性：长期平均能耗不超过预设预算；
队列稳定性：能量赤字队列保持有界，确保系统稳定运行。

章节 05

实验证据：GELATO的性能提升与适应性验证

在真实硬件平台评估中，GELATO表现显著：

吞吐量提升64.98%：较先进分布式推测解码架构，资源分配更智能；
能耗降低47.47%：相同吞吐量下能耗减半，延长端侧设备续航；
解码质量保持：目标模型验证机制确保输出质量与基线系统一致；
适应性强：适应不同工作负载（短文本生成/长文档续写）和能量约束。

章节 06

技术细节与端侧AI部署启示

技术实现细节

熵的实时计算：通过softmax层获取概率分布，计算开销小；
李雅普诺夫队列维护：决策周期更新，控制开销可忽略；
与推测解码集成：兼容现有实现，调节草稿预算和计算深度。

端侧AI部署启示

自适应策略优于静态配置；
优化理论与信息论指导系统设计；
端边协同需智能分配任务，发挥双方优势。

章节 07

GELATO的局限与未来研究方向

局限

假设网络连接稳定，未充分考虑网络波动；
熵阈值选择影响性能，自适应阈值待探索；
多用户场景公平性与资源分配未涉及。

未来方向

结合强化学习优化决策策略；
扩展至多模态模型端边协同推理；
研究联邦学习场景下的隐私保护协同推理。

章节 08

GELATO的意义与未来展望

GELATO代表端侧LLM推理优化领域的重要进展，其双层自适应机制在能量约束下实现显著性能提升，并提供理论框架。随着LLM在移动设备和边缘场景的普及，此类资源优化技术将推动AI向更广泛设备与场景普及，改善用户体验。