# DPLS：动态部分标签平滑损失，提升大语言模型预训练稳定性

> DPLS 是一种新型损失函数，通过动态调整标签平滑策略，在大语言模型预训练中实现更稳定的收敛和更好的泛化性能。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-27T10:15:47.000Z
- 最近活动: 2026-05-27T10:21:28.445Z
- 热度: 139.9
- 关键词: 标签平滑, 预训练, 损失函数, 正则化, 大语言模型, FineWeb, nanoGPT
- 页面链接: https://www.zingnex.cn/forum/thread/dpls
- Canonical: https://www.zingnex.cn/forum/thread/dpls
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**: Xueming Hou（bigcash）
- **来源平台**: GitHub
- **原始标题**: DPLS: Dynamic Partial Label Smoothing Loss for Large Language Models
- **原始链接**: https://github.com/bigcash/DPLS
- **发布时间**: 2026年5月
- **论文**: arXiv 预印本（2026）

## 预训练中的标签过拟合问题

在大语言模型的预训练过程中，模型通过预测下一个token来学习语言规律。传统的交叉熵损失函数将目标标签视为"硬标签"（one-hot编码），即模型应该100%预测正确的token。然而，这种严格的监督方式存在几个问题：

1. **过拟合风险**：模型可能过度记忆训练数据中的特定模式，而不是学习通用的语言规律
2. **置信度过高**：模型对预测结果过于自信，导致校准性差
3. **泛化能力受限**：在面对分布外数据时表现不佳

标签平滑（Label Smoothing）是一种经典的正则化技术，通过将硬标签转换为软标签来缓解上述问题。但传统的标签平滑采用**固定策略**，无法适应训练过程中的动态变化。

## DPLS：动态部分标签平滑

DPLS（Dynamic Partial Label Smoothing Loss）提出了一种**自适应的标签平滑策略**。与固定平滑不同，DPLS 根据训练状态动态调整平滑强度，在训练早期提供更强的正则化，在后期逐渐减弱，让模型更好地收敛。

### 核心机制

DPLS 的关键创新在于"动态"和"部分"两个特性：

**动态调整**：
- 根据训练步数、模型置信度或验证集性能，自适应地调整平滑参数
- 在训练初期使用较高的平滑强度，防止模型过早过拟合
- 在训练后期降低平滑强度，让模型更精确地拟合数据分布

**部分平滑**：
- 不是所有token都进行相同的平滑处理
- 对于模型已经 confident 的预测，减少平滑强度
- 对于不确定的预测，保持较高的平滑强度

### 实现细节

项目基于 Karpathy 的 nanoGPT 和 tensorgi/TPA 的代码库构建，支持在 FineWeb-Edu-100B 数据集上进行预训练。关键配置参数包括：

- `dpls_epsilon`：控制平滑强度的基准参数
- `dpls_top_k`：决定参与平滑计算的top-k token数量
- `resume_dir`：支持从检查点恢复训练，并在特定步数启用DPLS

用户可以通过修改配置文件中的这些参数，灵活控制DPLS的行为。

## 实验与评估

项目提供了完整的训练和评估流程：

**预训练阶段**：
- 支持使用 torchrun 进行分布式多GPU训练
- 提供基线训练和DPLS训练的对比脚本
- 集成 SwanLab 进行训练日志可视化

**评估阶段**：
- 支持困惑度（PPL）和熵的计算
- 集成 EleutherAI 的 lm-evaluation-harness 进行下游任务评估
- 可评估模型在多个标准基准上的表现

## 技术栈与硬件要求

项目采用现代化的深度学习技术栈：

- **Python 3.12+**
- **PyTorch 2.8.0**
- **支持多GPU分布式训练**

硬件方面，建议使用 8 张 Pro6000 GPU 进行大规模预训练。对于研究目的，也可以在较少GPU上进行小规模实验。

## 意义与应用前景

DPLS 虽然是一个看似简单的损失函数改进，但它触及了大语言模型预训练的核心问题：**如何在拟合能力和泛化能力之间取得平衡**。

这种方法的优势在于：

1. **即插即用**：可以作为现有预训练流程的 drop-in 替代
2. **计算开销小**：相比其他正则化技术，DPLS 几乎不增加额外计算成本
3. **可解释性强**：动态调整的策略直观易懂，便于调优

对于正在从事大语言模型预训练的研究者和工程师来说，DPLS 提供了一个值得尝试的新工具，可能会在稳定性和最终性能上带来意想不到的收益。
