Zing 论坛

正文

DelTA:可验证奖励强化学习中的判别式Token信用分配方法

DelTA提出了一种新的RLVR训练方法,通过判别式Token信用分配机制,放大具有判别性的token梯度方向,抑制共享的高频模式,在数学推理基准上相比基线提升3.26和2.62个百分点。

强化学习RLVR大语言模型推理能力信用分配Token级优化数学推理GRPO策略梯度机器学习
发布时间 2026/05/21 01:53最近活动 2026/05/21 11:20预计阅读 2 分钟
DelTA:可验证奖励强化学习中的判别式Token信用分配方法
1

章节 01

DelTA方法导读:提升RLVR中Token级信用分配效率

DelTA(判别式Token信用分配方法)是针对可验证奖励强化学习(RLVR)的创新训练方法,核心在于通过判别式Token信用分配机制放大具有判别性的token梯度方向,抑制共享的高频模式。该方法在数学推理基准上,Qwen3-8B-Base相比最强同规模基线平均提升3.26个百分点,Qwen3-14B-Base提升2.62个百分点,有效解决传统RLVR中响应级奖励平均分配稀释关键token信号的问题。

2

章节 02

RLVR的崛起与核心挑战

基于可验证奖励的强化学习(RLVR)已成为提升大语言模型推理能力的核心技术,在数学推理、代码生成等任务上效果显著(如DeepSeek-R1、OpenAI o系列模型)。但RLVR存在根本问题:响应级奖励如何转化为token级概率更新?传统方法将整个响应的奖励平均分配给所有token,粗粒度的信用分配可能稀释真正关键决策token的信号。

3

章节 03

DelTA的核心方法设计

DelTA从判别器视角重新审视RLVR更新过程:

  1. Token梯度向量的线性判别:策略梯度更新方向是token梯度向量空间的线性判别器,由正负样本质心构建,但易被共享高频模式(如格式token)主导;
  2. Token系数估计:学习为每个token估计系数,放大判别性token梯度,抑制共享/弱判别性token;
  3. 自归一化RLVR替代目标:用系数重新加权目标函数,增强正负样本质心对比;
  4. Margin-Coupled GRPO:联合优化基于rollout的关系推理和连续边界回归,对齐可解释比较理由与细粒度数值差异。
4

章节 04

DelTA实验结果:数学推理与泛化能力验证

在7个数学推理基准上的评估结果:

  • 主要提升:Qwen3-8B-Base相比最强同规模基线平均提升3.26个百分点,Qwen3-14B-Base提升2.62个百分点;
  • 泛化能力:在代码生成任务、不同骨干网络、域外任务上均保持性能提升,证明其通用RLVR改进策略的有效性。
5

章节 05

DelTA的技术意义与应用价值

技术意义

  • 细粒度信用分配重要性:识别响应内部token相对重要性提升学习效率,类似人类关注关键推理步骤;
  • 自动判别特征发现:系数学习机制自动选择区分好坏响应的token,减少人工奖励shaping依赖;
  • 兼容性:可与PPO、GRPO等现有RLVR框架无缝集成,即插即用。

应用价值

  • 更高效训练:精确信用分配减少训练步数;
  • 更好可解释性:token系数揭示模型关注的决策点;
  • 降低超参成本:减少对奖励缩放等超参的敏感性。
6

章节 06

DelTA的局限与未来探索方向

尽管DelTA取得显著进展,仍需探索:

  • 长序列优化:极长响应下token级信用分配的计算成本优化;
  • 多轮对话:扩展到多轮交互场景;
  • 技术协同:与过程监督、蒙特卡洛树搜索等方法结合的效果。