章节 01
SAERL框架:利用稀疏自编码器优化LLM后训练数据工程
核心观点
SAERL框架通过稀疏自编码器(SAE)提取模型内部信号,实现对RL训练数据的多样性、难度和质量三个维度的精准控制,在Qwen2.5-Math-1.5B上实现3%准确率提升并节省20%训练步数。
来源信息
- 论文标题:Guiding LLM Post-training Data Engineering with Model Internals from Sparse Autoencoders
- 原文链接:http://arxiv.org/abs/2605.27354v1
- 发布时间:2026-05-26
- 关键词:稀疏自编码器, 强化学习, 数据工程, 模型可解释性, 课程学习, GRPO, Qwen