Zing 论坛

正文

LESS:扩散语言模型的互稳定自适应采样方法

针对扩散大语言模型采样效率问题,LESS提出互稳定采样策略,通过联合稳定性规则动态决定token解掩码时机,在Dream-7B、LLaDA-8B等模型上实现72.1%的逆向步骤减少,同时提升平均准确率,显著降低推理延迟和计算成本。

扩散语言模型自适应采样互稳定LESS推理效率去噪步骤Transformer双向条件
发布时间 2026/06/16 00:15最近活动 2026/06/16 11:06预计阅读 2 分钟
LESS:扩散语言模型的互稳定自适应采样方法
1

章节 01

LESS方法核心导读

针对扩散大语言模型(dLLMs)采样效率低的问题,LESS提出互稳定自适应采样策略,通过联合稳定性规则动态决定token解掩码时机。该方法在Dream-7B、LLaDA-8B等模型上实现72.1%的逆向步骤减少,同时保持或提升平均准确率,显著降低推理延迟与计算成本。

2

章节 02

扩散语言模型的优势与采样瓶颈

扩散语言模型(dLLMs)具有双向条件建模、并行生成、迭代精化等优势,但现有采样方法采用固定步数策略,导致资源浪费(稳定位置仍消耗计算)或错误累积(未稳定位置过早固定)。每个逆向步骤需完整Transformer前向传播,计算成本与步数线性增长,制约实际效率。

3

章节 03

LESS互稳定自适应采样方法详解

LESS核心思想是将token解掩码视为在线停止问题,动态决定停止时机。其互稳定规则包含三个联合条件:1)高置信度(top-1 token概率足够高);2)预测一致性(最近若干步top-1 token不变);3)分布稳定性(相邻步骤预测分布JS散度低于阈值)。算法流程:初始化全掩码→迭代去噪→检查条件解掩码→直至全解掩码或达最大步数。

4

章节 04

实验结果与分析

测试模型包括Dream-7B、LLaDA-8B等,覆盖常识推理、数学推理、代码生成等任务。结果显示:LESS平均减少72.1%逆向步骤;多数任务准确率保持或提升;推理延迟显著降低。消融实验验证三个条件组合最优,案例分析表明简单任务步数少、复杂任务步数多,自适应分配资源。

5

章节 05

LESS的技术优势与实践价值

LESS具有训练无关性(即插即用,适用于任何dLLM,零额外成本)。实践价值包括:计算成本降低70%以上,能源消耗减少;推理延迟降低,改善用户体验,支持实时应用。理论上揭示dLLM不同位置收敛速度不均,可通过智能停止实现更好的质量-效率权衡。

6

章节 06

局限性与未来研究方向

当前局限:超参数(如置信度阈值)需调优,且最优值可能因任务而异;缺乏深入的理论收敛分析。未来方向:开发自适应超参数调整方法;建立理论收敛保证;扩展至多模态扩散模型;与硬件加速技术结合进一步优化效率。