章节 01
GELATO框架导读:端边协同推测解码的自适应Token卸载方案
GELATO(基于生成熵与李雅普诺夫的端边协同推测解码自适应Token卸载框架)通过漂移-惩罚循环和嵌套熵驱动生成机制,在资源受限的端边协同推测解码系统中实现能量约束下的解码吞吐量最大化。实验结果显示,该框架使吞吐量提升64.98%,能耗降低47.47%,为端侧大型语言模型(LLM)推理优化提供了新方案。
正文
GELATO框架通过漂移-惩罚循环和嵌套熵驱动生成机制,在资源受限的端边协同推测解码系统中实现能量约束下的解码吞吐量最大化,吞吐量提升64.98%,能耗降低47.47%。
章节 01
GELATO(基于生成熵与李雅普诺夫的端边协同推测解码自适应Token卸载框架)通过漂移-惩罚循环和嵌套熵驱动生成机制,在资源受限的端边协同推测解码系统中实现能量约束下的解码吞吐量最大化。实验结果显示,该框架使吞吐量提升64.98%,能耗降低47.47%,为端侧大型语言模型(LLM)推理优化提供了新方案。
章节 02
随着LLM能力提升,端侧部署需求迫切,但端侧设备计算资源和电池容量有限,运行大模型面临严峻挑战。端边协同推理架构应运而生,将任务在终端与边缘服务器智能分配,推测解码是其中最有前景的技术路线之一。
利用端侧轻量级草稿模型快速生成候选token序列,提交边缘目标模型批量验证,可降低延迟、优化带宽且保持输出质量。但现有静态策略(固定草稿模型、验证阈值等)无法适应动态生成不确定性,导致资源利用效率低下。
章节 03
GELATO框架通过双层级自适应机制应对端边环境挑战:
采用李雅普诺夫优化框架,维护能量赤字队列跟踪能耗偏差。通过漂移项(惩罚能量赤字增长)和惩罚项(权衡吞吐量收益)调节资源分配,实现长期能量约束下的在线优化。
利用生成熵量化token不确定性:低熵时草稿模型提前退出提交验证,高熵时增加计算深度,动态调整采样策略,实现精细化资源分配。
章节 04
GELATO框架具有坚实理论基础:
章节 05
在真实硬件平台评估中,GELATO表现显著:
章节 06
章节 07
章节 08
GELATO代表端侧LLM推理优化领域的重要进展,其双层自适应机制在能量约束下实现显著性能提升,并提供理论框架。随着LLM在移动设备和边缘场景的普及,此类资源优化技术将推动AI向更广泛设备与场景普及,改善用户体验。