Zing 论坛

正文

CadLLM:无需训练即可提升扩散语言模型推理吞吐量的置信度感知校准方法

ACL 2026 Findings论文开源实现,提出CadLLM——一种即插即用的控制器,通过模型自身的轻量级置信度信号动态调整解码策略,在GSM8K、MATH、MBPP和HumanEval基准上实现最高2.28倍吞吐量提升,同时保持竞争力准确率。

扩散语言模型dLLM推理优化吞吐量提升置信度校准ACL 2026PyTorchLLaDADREAM训练无关
发布时间 2026/04/20 22:14最近活动 2026/04/20 22:19预计阅读 2 分钟
CadLLM:无需训练即可提升扩散语言模型推理吞吐量的置信度感知校准方法
1

章节 01

CadLLM:无需训练提升扩散语言模型推理吞吐量的创新方法

CadLLM是ACL 2026 Findings论文的开源实现,提出一种即插即用的控制器,通过模型自身轻量级置信度信号动态调整解码策略。该方法在GSM8K、MATH、MBPP和HumanEval基准上实现最高2.28倍吞吐量提升,同时保持竞争力准确率,且无需训练、兼容现有扩散语言模型(如LLaDA、DREAM)。

2

章节 02

扩散语言模型的效率瓶颈与现有方案局限

扩散语言模型(dLLMs)通过迭代去噪生成文本,理论上有并行优势,但实际推理吞吐量低于优化的自回归模型,限制其在延迟敏感场景的应用。传统解决方法需复杂架构修改或昂贵重新训练,消耗大量资源且可能影响原始性能,亟需轻量级、无需训练的解决方案。

3

章节 03

CadLLM核心思想:置信度感知的动态优化

CadLLM(Confidence-Aware Diffusion LLM)的核心是利用模型自身生成的置信度信号智能调整解码策略,关键优势为训练无关——无需微调或重新训练,作为即插即用控制器在推理时动态调整过程,平衡吞吐量与准确率。

4

章节 04

CadLLM技术机制:置信度提取与自适应调度

  1. 置信度信号提取:捕捉每个去噪步骤中token预测的确定性,高置信度token提前终止迭代,低置信度保留更多轮数;2. 动态解码策略:根据输入和实时反馈自适应调整,利用dLLM并行性最大化资源效率;3. 协同现有方法:与Fast-dLLM等高效推理基线协同,叠加提升性能。
5

章节 05

实验验证:多基准下的吞吐量与准确率平衡

在GSM8K(小学数学)、MATH(竞赛题)、MBPP(Python编程)、HumanEval(代码生成)四个权威基准评估:相比Fast-dLLM基线,CadLLM实现最高2.28倍吞吐量提升,且所有基准上保持与原始模型竞争的准确率,成功平衡效率与质量。

6

章节 06

CadLLM的部署优势与行业意义

部署优势:即插即用(快速集成现有管道)、资源友好(无额外计算开销)、模型无关(兼容LLaDA、DREAM等主流dLLMs);行业意义:缩小dLLMs与自回归模型的效率差距,开辟“内在信号动态优化”新方向,开源实现促进社区迭代。

7

章节 07

使用指南与未来改进方向

使用指南:1.环境准备(Python3.10+及依赖);2.模型获取(自动下载HuggingFace的LLaDA/DREAM);3.集成部署(接入现有推理流程);未来展望:优化任务特异性阈值、与更先进基线结合、验证超大规模模型表现。