章节 01
【导读】解密大模型训练的数据组织艺术:核心观点与方法概述
原论文信息
- 作者:微软研究院团队
- 来源:arXiv
- 标题:Demystifying Data Organization for Enhanced LLM Training
- 链接:http://arxiv.org/abs/2605.30334v1
- 代码:https://github.com/microsoft/data-efficacy/
- 发表时间:2026年5月28日
核心观点 大模型训练中,数据组织(排序与呈现顺序)长期被忽视,但在单epoch训练场景下至关重要。本研究提出四大数据组织原则:边界锐化、循环调度、课程连续性、局部多样性,并开发STR(分层排序)与SAW(锯齿排序)两种创新方法。实验表明,这些方法可降低困惑度2-5%,提升下游任务准确率1-3%,同时改善训练稳定性与收敛速度。