章节 01
PARSE框架:并行前缀验证突破推测解码瓶颈,实现显著加速
大语言模型(LLM)推理加速中,推测解码技术通过小模型生成候选序列、大模型验证接受以减少前向传播次数,但传统token级验证存在接受长度受限、加速效果有限等瓶颈。PARSE(PArallel pRefix Speculative Engine)框架创新性提出并行前缀验证机制,将验证粒度提升至语义级,在单次前向传播中完成验证,实现1.25-4.5倍吞吐量提升,且保持极低精度损失,同时兼容现有token级推测解码方法(如EAGLE系列)。