正文

DPLS：动态部分标签平滑损失，提升大语言模型预训练稳定性

DPLS 是一种新型损失函数，通过动态调整标签平滑策略，在大语言模型预训练中实现更稳定的收敛和更好的泛化性能。

标签平滑预训练损失函数正则化大语言模型FineWebnanoGPT

发布时间 2026/05/27 18:15最近活动 2026/05/27 18:21预计阅读 2 分钟

章节 01

DPLS：动态部分标签平滑损失，提升大语言模型预训练稳定性（导读）

DPLS是一种新型损失函数，通过动态调整标签平滑策略，解决大语言模型预训练中传统标签平滑固定策略的不足，实现更稳定的收敛和更好的泛化性能。该方法基于nanoGPT和FineWeb-Edu-100B数据集构建，具有即插即用、计算开销小、可解释性强等优势，为大语言模型预训练提供了新的正则化工具。

章节 02

背景：预训练中的标签过拟合问题与传统标签平滑局限

在大语言模型预训练中，传统交叉熵损失使用硬标签（one-hot编码）易导致过拟合、置信度过高、泛化能力受限。标签平滑作为经典正则化技术，将硬标签转为软标签缓解问题，但传统策略固定，无法适应训练动态变化。

章节 03

DPLS核心机制与实现细节

DPLS的关键创新在于动态调整和平滑部分特性：动态调整根据训练步数、模型置信度等自适应平滑强度（初期高、后期低）；部分平滑对模型自信的预测减少平滑，不确定的保持高平滑。实现基于nanoGPT和TPA代码库，支持FineWeb-Edu-100B数据集，关键参数包括dpls_epsilon（平滑基准）、dpls_top_k（参与平滑的top-k token）、resume_dir（从检查点恢复并启用DPLS）。

章节 04

实验与评估流程

预训练阶段支持torchrun分布式多GPU训练，提供基线与DPLS对比脚本，集成SwanLab可视化训练日志；评估阶段计算困惑度（PPL）和熵，使用EleutherAI的lm-evaluation-harness进行下游任务评估，支持多个标准基准测试。

章节 05

技术栈与硬件配置建议

技术栈包括Python3.12+、PyTorch2.8.0，支持多GPU分布式训练；硬件建议8张Pro6000 GPU用于大规模预训练，小规模实验可使用较少GPU。

章节 06

DPLS的意义与应用前景

DPLS解决大语言模型预训练中拟合与泛化平衡的核心问题，优势在于即插即用（可作为现有流程drop-in替代）、计算开销小、可解释性强。对预训练研究者和工程师而言，是值得尝试的工具，可能提升稳定性和最终性能。

DPLS：动态部分标签平滑损失，提升大语言模型预训练稳定性

DPLS：动态部分标签平滑损失，提升大语言模型预训练稳定性（导读）

背景：预训练中的标签过拟合问题与传统标签平滑局限

DPLS核心机制与实现细节

实验与评估流程

技术栈与硬件配置建议

DPLS的意义与应用前景

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统