章节 01
【导读】RLVR推理训练数据分配的双维度研究核心总结
本研究聚焦RLVR推理训练的数据分配策略,通过构建合成知识图谱环境,系统分析推理深度与环境复杂度双维度的影响。核心发现包括:联合覆盖两维度的数据分配优于单轴方案;归纳-类比与演绎-溯因形成两类任务簇;均匀混合不同难度样本的策略表现更优。研究为提升模型全面推理能力提供了关键设计原则。
正文
通过构建合成知识图谱环境,系统研究RLVR训练中推理深度和环境复杂度两个维度的数据分配策略,发现联合覆盖优于单轴方案,且归纳-类比与演绎-溯因形成不同的任务簇。
章节 01
本研究聚焦RLVR推理训练的数据分配策略,通过构建合成知识图谱环境,系统分析推理深度与环境复杂度双维度的影响。核心发现包括:联合覆盖两维度的数据分配优于单轴方案;归纳-类比与演绎-溯因形成两类任务簇;均匀混合不同难度样本的策略表现更优。研究为提升模型全面推理能力提供了关键设计原则。
章节 02
RLVR(可验证奖励强化学习)已成为大语言模型推理能力后训练的主流方法,显著提升数学、代码等任务表现。但现有研究存在局限:对推理空间理解单一,仅将难度等同于推理深度,忽视真实世界推理的多维复杂性(如环境干扰、多路径筛选等)。
章节 03
构建可控环境,精确控制预训练/后训练数据分布、推理深度、环境复杂度等参数,排除真实数据混杂因素,支持对照实验。
章节 04
同时覆盖推理深度与环境复杂度的策略,显著优于单一维度方案(避免机械推理或信息提取能力失衡)。
四种推理形式形成两类簇:演绎-溯因聚为一类,归纳-类比聚为另一类;溯因推理对训练覆盖更敏感,未充分覆盖时性能急剧下降。
固定预算下,均匀采样不同难度样本的策略,优于分阶段课程学习(提供更丰富信号,避免适应成本)。
章节 05
测试开源/闭源模型发现:现有模型普遍表现出演绎推理优于溯因推理的不对称性,反映训练数据中演绎任务占比过高、溯因任务不足的系统性偏差,限制模型在科学发现、故障诊断等领域的应用。
章节 06
章节 07
章节 08
本研究通过受控实验,将推理空间从一维扩展到二维,揭示RLVR数据分配的关键原则。核心贡献在于证明多维度数据策展(联合深度与复杂度、均衡推理类型)对培养全面推理能力的必要性,为AI系统推理训练提供直接指导。