章节 01
RLCSD:解决推理模型特权诱导风格漂移的新方法(导读)
标题:RLCSD:对比式自蒸馏解决推理模型中的"特权诱导风格漂移"问题
研究人员发现on-policy自蒸馏(OPSD)存在"特权诱导风格漂移"问题,学习信号集中在风格token而非任务token上。提出的RLCSD方法通过对比正确与错误提示下的教师-学生差距解决该问题,在多个模型上取得一致改进。
来源信息:
- 原作者:arXiv论文作者
- 来源平台:arXiv
- 发布时间:2026年6月10日
- 原文链接:http://arxiv.org/abs/2606.11709v1
关键词:RLCSD, 强化学习, 自蒸馏, 推理模型, 对比学习, 风格漂移, GRPO, 机器学习