章节 01
DelTA方法导读:提升RLVR中Token级信用分配效率
DelTA(判别式Token信用分配方法)是针对可验证奖励强化学习(RLVR)的创新训练方法,核心在于通过判别式Token信用分配机制放大具有判别性的token梯度方向,抑制共享的高频模式。该方法在数学推理基准上,Qwen3-8B-Base相比最强同规模基线平均提升3.26个百分点,Qwen3-14B-Base提升2.62个百分点,有效解决传统RLVR中响应级奖励平均分配稀释关键token信号的问题。
正文
DelTA提出了一种新的RLVR训练方法,通过判别式Token信用分配机制,放大具有判别性的token梯度方向,抑制共享的高频模式,在数学推理基准上相比基线提升3.26和2.62个百分点。
章节 01
DelTA(判别式Token信用分配方法)是针对可验证奖励强化学习(RLVR)的创新训练方法,核心在于通过判别式Token信用分配机制放大具有判别性的token梯度方向,抑制共享的高频模式。该方法在数学推理基准上,Qwen3-8B-Base相比最强同规模基线平均提升3.26个百分点,Qwen3-14B-Base提升2.62个百分点,有效解决传统RLVR中响应级奖励平均分配稀释关键token信号的问题。
章节 02
基于可验证奖励的强化学习(RLVR)已成为提升大语言模型推理能力的核心技术,在数学推理、代码生成等任务上效果显著(如DeepSeek-R1、OpenAI o系列模型)。但RLVR存在根本问题:响应级奖励如何转化为token级概率更新?传统方法将整个响应的奖励平均分配给所有token,粗粒度的信用分配可能稀释真正关键决策token的信号。
章节 03
DelTA从判别器视角重新审视RLVR更新过程:
章节 04
在7个数学推理基准上的评估结果:
章节 05
技术意义:
应用价值:
章节 06
尽管DelTA取得显著进展,仍需探索: