章节 01
StrataRL框架导读:解决小模型多领域推理的跨领域遗忘问题
StrataRL是面向小语言模型的多领域推理强化学习框架,针对GRPO训练中的跨领域灾难性遗忘问题,通过分层优势归一化(SAN)和结构化模板奖励(ST-GRPO)机制,实现数学、常识和策略推理任务的同步提升,避免传统训练中此消彼长的现象。
正文
本文介绍StrataRL框架,通过分层优势归一化和结构化模板奖励机制,解决GRPO训练中的跨领域灾难性遗忘问题,实现小语言模型在数学、常识和策略推理任务上的同步提升。
章节 01
StrataRL是面向小语言模型的多领域推理强化学习框架,针对GRPO训练中的跨领域灾难性遗忘问题,通过分层优势归一化(SAN)和结构化模板奖励(ST-GRPO)机制,实现数学、常识和策略推理任务的同步提升,避免传统训练中此消彼长的现象。
章节 02
群体相对策略优化(GRPO)是训练大语言模型推理能力的主流方法,但标准GRPO在多领域混合训练时存在跨领域灾难性遗忘:模型在某一领域(如数学推理)提升时,另一领域(如常识问答)能力下降。原因在于全局优势归一化将简单领域(高奖励)和困难领域(低奖励)的奖励混在一起比较,导致困难领域有效轨迹被抑制。StrataRL正是针对这一问题的解决方案。
章节 03
不同领域奖励在各自领域内归一化,根据批次奖励方差动态选择策略:零方差仅中心化,低方差阻尼缩放,正常方差Z-归一化,避免跨领域梯度偏差。
为各领域定义特定推理模板(如数学需<decompose>等标签),通过正则表达式验证输出结构,无需外部奖励模型,提供可靠推理质量信号。
章节 04
训练流程关键环节:
章节 05
严格遵循训练提示模板测量基线(GSM8K:0.500,MMLU:0.300),经优化后Qwen2.5-3B-Instruct模型取得:
章节 06
消融实验关键发现:
章节 07