Zing 论坛

正文

DPLS:动态部分标签平滑损失,提升大语言模型预训练稳定性

DPLS 是一种新型损失函数,通过动态调整标签平滑策略,在大语言模型预训练中实现更稳定的收敛和更好的泛化性能。

标签平滑预训练损失函数正则化大语言模型FineWebnanoGPT
发布时间 2026/05/27 18:15最近活动 2026/05/27 18:21预计阅读 2 分钟
DPLS:动态部分标签平滑损失,提升大语言模型预训练稳定性
1

章节 01

DPLS:动态部分标签平滑损失,提升大语言模型预训练稳定性(导读)

DPLS是一种新型损失函数,通过动态调整标签平滑策略,解决大语言模型预训练中传统标签平滑固定策略的不足,实现更稳定的收敛和更好的泛化性能。该方法基于nanoGPT和FineWeb-Edu-100B数据集构建,具有即插即用、计算开销小、可解释性强等优势,为大语言模型预训练提供了新的正则化工具。

2

章节 02

背景:预训练中的标签过拟合问题与传统标签平滑局限

在大语言模型预训练中,传统交叉熵损失使用硬标签(one-hot编码)易导致过拟合、置信度过高、泛化能力受限。标签平滑作为经典正则化技术,将硬标签转为软标签缓解问题,但传统策略固定,无法适应训练动态变化。

3

章节 03

DPLS核心机制与实现细节

DPLS的关键创新在于动态调整和平滑部分特性:动态调整根据训练步数、模型置信度等自适应平滑强度(初期高、后期低);部分平滑对模型自信的预测减少平滑,不确定的保持高平滑。实现基于nanoGPT和TPA代码库,支持FineWeb-Edu-100B数据集,关键参数包括dpls_epsilon(平滑基准)、dpls_top_k(参与平滑的top-k token)、resume_dir(从检查点恢复并启用DPLS)。

4

章节 04

实验与评估流程

预训练阶段支持torchrun分布式多GPU训练,提供基线与DPLS对比脚本,集成SwanLab可视化训练日志;评估阶段计算困惑度(PPL)和熵,使用EleutherAI的lm-evaluation-harness进行下游任务评估,支持多个标准基准测试。

5

章节 05

技术栈与硬件配置建议

技术栈包括Python3.12+、PyTorch2.8.0,支持多GPU分布式训练;硬件建议8张Pro6000 GPU用于大规模预训练,小规模实验可使用较少GPU。

6

章节 06

DPLS的意义与应用前景

DPLS解决大语言模型预训练中拟合与泛化平衡的核心问题,优势在于即插即用(可作为现有流程drop-in替代)、计算开销小、可解释性强。对预训练研究者和工程师而言,是值得尝试的工具,可能提升稳定性和最终性能。