Zing 论坛

正文

Anytime LLM Inference:通过预测性早退机制约束推理延迟的实时调度框架

本文介绍了一个为大型语言模型推理设计的Anytime算法框架,通过在Transformer中间层引入置信度阈值机制,在保证硬实时截止期限的同时最大化输出质量。

LLM推理实时系统Anytime算法早退机制KV缓存延迟优化TransformerTinyLlama可调度性分析置信度阈值
发布时间 2026/04/23 09:09最近活动 2026/04/23 09:19预计阅读 2 分钟
Anytime LLM Inference:通过预测性早退机制约束推理延迟的实时调度框架
1

章节 01

【导读】Anytime LLM Inference:实时约束下的LLM推理优化框架

本文介绍了Anytime LLM Inference框架,通过在Transformer中间层引入置信度阈值机制与KV缓存调度,解决传统LLM推理延迟不确定的问题,在保证硬实时截止期限的同时最大化输出质量,适用于临床决策、自动驾驶等实时场景。

2

章节 02

背景:实时AI推理的延迟困境

在交互式AI应用(如临床决策支持、人机交互、网络物理控制系统)中,延迟是核心指标。传统自回归LLM推理每个token需经全部Transformer层,导致最坏执行时间无界,长上下文或长回复时延迟飙升,违反实时约束。如何在保证质量前提下提供可预测延迟边界,是实时AI系统的核心挑战。

3

章节 03

方法:Anytime框架的核心机制

Anytime框架基于Transformer中间层隐藏状态的预测信号,以TinyLlama-1.1B-Chat为例,第16层(共22层)隐藏状态与完整层输出一致性达32%(置信度≥0.5时64.7%)。实现KV缓存调度器,置信度超阈值则早退,确保token生成在45ms截止期限内。分层消融实验选第16层为默认早退点(平衡质量与效率);两种调度策略:无状态动态调度(双阶段决策,适用于短序列)、KV缓存单阶段调度(单次前向传播,固定阈值0.55,延迟稳定)。

4

章节 04

证据:实时性与性能验证

实时性分析采用可调度性准则(P99_TPOT ≤ D)。PubMedQA测试中,KV缓存调度器平均TPOT 20ms、P99 TPOT 22ms、利用率0.488、零错过率;无状态调度器P99 TPOT 48.3ms超截止期限。截止期限扫描显示:KV缓存调度器D≥22ms稳定工作。临床测试中,KV缓存模式准确率71.4%(可提取标签)、标签提取率46.7%、零错过率、平均TPOT 19.5ms。

5

章节 05

技术实现细节

通过自定义EarlyExitTinyLlama类封装模型,支持逐层前向控制(如exit_layer=16早退)。关键不变量:退出点应用RMSNorm、旋转位置编码共享、无原地修改。KV缓存路径用前向钩子在第15层(0索引)捕获中间状态,避免双阶段KV缓存不同步问题。

6

章节 06

实际意义与局限

应用场景包括临床决策、自动驾驶、工业控制、语音交互等,核心价值是提供延迟可预测性。权衡:延迟保证与输出质量的自适应平衡。局限:仅在TinyLlama-1.1B验证,置信度阈值启发式设定,小模型指令遵循能力有限(临床测试中53%回复冗长)。

7

章节 07

结论与启示

Anytime框架将实时系统方法(WCET分析、可调度性证明)应用于LLM推理,证明通过算法调度可实现延迟可预测性。为边缘或实时场景部署LLM提供参考,表明延迟保证可通过智能调度达成,这种兼顾效率与质量的思路对实时AI系统至关重要。