# LESS：扩散语言模型的互稳定自适应采样方法

> 针对扩散大语言模型采样效率问题，LESS提出互稳定采样策略，通过联合稳定性规则动态决定token解掩码时机，在Dream-7B、LLaDA-8B等模型上实现72.1%的逆向步骤减少，同时提升平均准确率，显著降低推理延迟和计算成本。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-15T16:15:45.000Z
- 最近活动: 2026-06-16T03:06:27.028Z
- 热度: 131.2
- 关键词: 扩散语言模型, 自适应采样, 互稳定, LESS, 推理效率, 去噪步骤, Transformer, 双向条件
- 页面链接: https://www.zingnex.cn/forum/thread/less
- Canonical: https://www.zingnex.cn/forum/thread/less
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：arXiv authors
- 来源平台：arxiv
- 原始标题：LESS Is More: Mutual-Stability Sampling for Diffusion Language Models
- 原始链接：http://arxiv.org/abs/2606.16908v1
- 来源发布时间/更新时间：2026-06-15T16:15:45Z

## 原作者与来源\n\n- **原作者/团队**：扩散模型与高效推理研究团队\n- **来源平台**：arXXiv\n- **原文标题**：LESS Is More: Mutual-Stability Sampling for Diffusion Language Models\n- **原文链接**：http://arxiv.org/abs/2606.16908v1\n- **发布时间**：2026-06-15\n\n---\n\n## 扩散语言模型：新范式与新挑战\n\n扩散大语言模型（Diffusion Large Language Models, dLLMs）正在改变自然语言生成的技术格局。与传统的自回归模型不同，dLLMs采用了一种全新的生成范式：从完全掩码的序列出发，通过迭代的去噪过程逐步恢复原始文本。\n\n### dLLM的核心优势\n\n相比自回归模型，dLLMs具有独特优势：\n\n#### 双向条件\n\n自回归模型只能从左到右生成，每个token只能依赖已生成的左侧上下文。而dLLMs在整个生成过程中可以访问完整的上下文信息，实现真正的双向条件建模。\n\n#### 并行生成\n\ndLLMs可以同时更新多个位置的token，而非逐个生成。这种并行性为加速推理提供了可能。\n\n#### 迭代精化\n\n生成过程是一个迭代精化的过程，模型可以在后续步骤中修正之前的错误，提高生成质量。\n\n### 当前采样的瓶颈\n\n然而，dLLMs的实际效率受到采样过程的严重制约：\n\n#### 固定预算问题\n\n现有采样方法采用固定数量的逆向去噪步骤：\n\n- **预设定步数**：在解码前确定总步数（如50步、100步）\n- **均匀分配**：每个位置都经历相同的去噪步骤\n- **资源浪费**：许多位置在去噪早期就已稳定，但仍消耗后续计算\n- **过早提交**：某些位置尚未稳定就被固定，导致错误累积\n\n这种\"一刀切\"的策略导致严重的计算效率问题。\n\n#### 计算成本分析\n\n每个逆向步骤都需要一次完整的Transformer前向传播：\n\n- **计算密集**：Transformer前向传播是计算密集型操作\n- **线性增长**：总计算量与步数成正比\n- **延迟累积**：每步的延迟累积成总推理时间\n\n因此，减少逆向步骤数直接转化为推理加速。\n\n## LESS：互稳定自适应采样\n\n针对上述问题，研究团队提出了LESS（Mutual-Stability Sampling）——一种训练无关、模型无关的自适应采样方法。\n\n### 核心思想\n\nLESS的核心洞察是：token的解掩码（即确定最终值）应当被视为一个在线停止问题。每个位置的去噪过程应当根据其自身的收敛状态动态决定何时停止，而非遵循固定的全局步数。\n\n### 互稳定采样规则\n\nLESS通过三个联合条件判断一个被掩码位置是否适合解掩码：\n\n#### 条件一：高置信度\n\n**要求**：当前预测的top-1 token具有足够高的置信度\n\n**原理**：\n- 高置信度表明模型对该位置的预测有信心\n- 低置信度意味着模型仍在犹豫，需要更多去噪步骤\n- 使用softmax概率或logits幅度度量置信度\n\n**阈值**：设定置信度阈值（如top-1概率>0.9）\n\n#### 条件二：预测一致性\n\n**要求**：top-1 token在最近若干逆向步骤中保持一致\n\n**原理**：\n- 持续变化的预测表明去噪过程尚未收敛\n- 稳定的预测表明模型已找到合适的token\n- 使用滑动窗口检查最近N步的预测一致性\n\n**窗口大小**：通常使用3-5步的观察窗口\n\n#### 条件三：分布稳定性\n\n**要求**：预测分布在相邻步骤间保持稳定\n\n**原理**：\n- 即使top-1 token不变，底层分布的变化也值得关注\n- 分布的剧烈变化表明模型仍在调整\n- 使用Jensen-Shannon散度度量分布变化\n\n**计算方式**：\n```\nJS(P_t, P_{t-1}) = 0.5 * KL(P_t || M) + 0.5 * KL(P_{t-1} || M)\n其中 M = 0.5 * (P_t + P_{t-1})\n```\n\n**阈值**：JS散度低于阈值（如0.1）认为分布稳定\n\n### 联合决策规则\n\n只有当三个条件同时满足时，位置才被解掩码：\n\n```\nunmask(position) = confidence_high(position) \n                   AND prediction_stable(position) \n                   AND distribution_stable(position)\n```\n\n这种\"互稳定\"设计确保了解掩码的保守性：只有当模型真正"确定"时才提交token。\n\n## 算法实现\n\n### 整体流程\n\nLESS的采样流程如下：\n\n1. **初始化**：所有位置被掩码\n2. **迭代去噪**：\n   - 执行Transformer前向传播\n   - 对每个被掩码位置计算三个稳定性条件\n   - 满足所有条件的位置被解掩码\n   - 已解掩码位置保持固定\n3. **终止条件**：所有位置解掩码或达到最大步数\n\n### 关键优化\n\n#### 早停机制\n\n为避免无限循环，设置最大步数限制。即使不是所有位置都满足稳定性条件，达到最大步数后强制解掩码剩余位置。\n\n#### 动态掩码比例\n\n在半自回归（semi-autoregressive）模式下，可以控制每步解掩码的位置数量：\n\n- **保守策略**：每步只解掩码最稳定的位置\n- **激进策略**：每步解掩码所有满足条件的位置\n- **自适应策略**：根据当前整体稳定性动态调整\n\n#### 温度调度\n\n在采样过程中动态调整温度参数：\n\n- **早期高温度**：增加随机性，探索更多可能\n- **后期低温度**：降低随机性，稳定预测\n- **自适应调整**：根据当前收敛状态调整\n\n## 实验评估\n\n### 实验设置\n\n#### 测试模型\n\n- **Dream-7B**：基于扩散的7B参数语言模型\n- **LLaDA-8B**：大规模扩散语言模型\n- **LLaDA-1.5-8B**：LLaDA的改进版本\n\n#### 采样模式\n\n- **全序列扩散**：一次性生成整个序列\n- **半自回归块采样**：分块生成，块内并行\n\n#### 评估基准\n\n覆盖七个基准测试：\n\n- **常识推理**：HellaSwag、Winogrande\n- **数学推理**：GSM8K、MATH\n- **代码生成**：HumanEval\n- **知识问答**：MMLU、ARC\n\n#### 对比方法\n\n- **固定预算**：50步、100步固定步数采样\n- **训练型自适应**：需要额外训练的自适应采样方法\n- **训练无关自适应**：其他训练无关的自适应采样方法\n\n### 核心结果\n\n#### 步骤减少\n\nLESS实现了显著的步骤减少：\n\n- **平均减少**：相比固定50步预算，LESS平均使用72.1%更少的逆向步骤\n- **模型间一致**：在Dream-7B、LLaDA-8B、LLaDA-1.5-8B上都观察到类似减少\n- **任务间一致**：在常识、数学、代码等不同任务类型上都有效\n\n#### 准确率提升\n\n尽管步骤大幅减少，LESS仍保持或提升了准确率：\n\n- **相比固定预算**：在多数任务上准确率相当或略高\n- **相比其他自适应方法**：超过其他训练无关自适应采样器\n- **质量-效率权衡**：实现了更好的质量-效率权衡\n\n#### 延迟降低\n\n步骤减少直接转化为推理延迟降低：\n\n- **墙钟时间**：测量显示显著的墙钟时间减少\n- **前向传播次数**：平均前向传播次数减少70%以上\n- **吞吐量提升**：单位时间内可处理更多请求\n\n### 详细分析\n\n#### 稳定性条件贡献\n\n消融实验显示各条件的贡献：\n\n| 条件组合 | 步骤减少 | 准确率保持 |\n|----------|----------|------------|\n| 仅置信度 | 中等 | 略有下降 |\n| 置信度+预测一致性 | 良好 | 基本保持 |\n| 全部三个条件（LESS） | 最优 | 最佳保持 |\n\n三个条件的组合实现了最佳效果，验证了互稳定设计的有效性。\n\n#### 不同任务的步数分布\n\nLESS在不同任务上展现出不同的步数分布：\n\n- **简单任务**（如常识推理）：多数位置在10-20步内稳定\n- **复杂任务**（如数学推理）：需要更多步骤，约30-40步\n- **代码生成**：分布较宽，反映代码结构的复杂性\n\n这种自适应特性使LESS能够根据任务难度自动调整计算资源。\n\n#### 与训练型方法的对比\n\n与需要额外训练的自适应采样方法相比：\n\n- **准确率**：LESS达到相近或更好的准确率\n- **通用性**：LESS无需训练，适用于任何dLLM\n- **部署成本**：LESS零额外训练成本\n\n### 案例分析\n\n#### 案例一：简单文本生成\n\n**输入**：\"The capital of France is ___\"\n\n**观察**：\n- 多数位置在5-10步内稳定\n- \"Paris\"位置的预测快速收敛\n- LESS在15步内完成生成\n- 固定预算方法仍需50步\n\n#### 案例二：复杂推理\n\n**输入**：数学应用题\n\n**观察**：\n- 数字和运算符位置需要更多步骤\n- 中间推理步骤的位置收敛较慢\n- LESS自适应地分配更多步骤给复杂位置\n- 最终答案准确率与固定预算相当\n\n## 技术优势与意义\n\n### 训练无关性\n\nLESS的最大优势之一是训练无关：\n\n- **即插即用**：可直接应用于任何预训练的dLLM\n- **零额外成本**：无需训练数据或计算资源\n- **模型无关**：适用于不同架构和规模的dLLM\n\n### 理论洞察\n\nLESS提供了关于dLLM采样过程的重要洞察：\n\n- **不均匀收敛**：不同位置的收敛速度差异显著\n- **早期稳定**：许多位置在去噪早期就已稳定\n- **质量-效率权衡**：通过智能停止策略可以实现更好的权衡\n\n### 实践价值\n\nLESS为dLLM的实际部署带来显著价值：\n\n#### 成本降低\n\n- **计算成本**：70%以上的步骤减少直接降低推理成本\n- **能源消耗**：减少能源消耗，降低碳足迹\n- **基础设施**：相同硬件可支持更大规模部署\n\n#### 用户体验\n\n- **延迟降低**：更快的响应时间改善用户体验\n- **实时应用**：使dLLM适用于更多实时场景\n- **可扩展性**：支持更高并发请求\n\n## 局限性与未来方向\n\n### 当前局限\n\n1. **超参数敏感**：置信度阈值、窗口大小等超参数需要调优\n2. **任务依赖**：最优超参数可能因任务而异\n3. **理论分析**：缺乏对LESS收敛性质的深入理论分析\n\n### 未来研究方向\n\n1. **自适应超参数**：开发自动调整超参数的方法\n2. **理论保证**：建立LESS的理论收敛保证\n3. **多模态扩展**：将LESS扩展到多模态扩散模型\n4. **硬件协同**：与硬件加速技术结合，进一步优化效率\n\n## 结语\n\nLESS通过互稳定采样策略，成功解决了扩散语言模型采样效率的关键问题。它证明了通过智能的自适应停止策略，可以在大幅提高效率的同时保持甚至提升生成质量。\n\n\"LESS is More\"——这一简洁的命名恰当地概括了方法的核心思想：更少的步骤，更好的效果。在计算效率日益成为AI系统关键瓶颈的今天，LESS为扩散模型的实用化部署提供了重要工具，也为采样算法的设计提供了新的思路。