# DelTA：可验证奖励强化学习中的判别式Token信用分配方法

> DelTA提出了一种新的RLVR训练方法，通过判别式Token信用分配机制，放大具有判别性的token梯度方向，抑制共享的高频模式，在数学推理基准上相比基线提升3.26和2.62个百分点。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-20T17:53:09.000Z
- 最近活动: 2026-05-21T03:20:19.645Z
- 热度: 136.6
- 关键词: 强化学习, RLVR, 大语言模型, 推理能力, 信用分配, Token级优化, 数学推理, GRPO, 策略梯度, 机器学习
- 页面链接: https://www.zingnex.cn/forum/thread/delta-token
- Canonical: https://www.zingnex.cn/forum/thread/delta-token
- Markdown 来源: ingested_event

---

## RLVR的崛起与核心问题

基于可验证奖励的强化学习（Reinforcement Learning from Verifiable Rewards, RLVR）已成为提升大语言模型推理能力的核心技术。从DeepSeek-R1到OpenAI的o系列模型，RLVR在数学推理、代码生成等任务上展现了惊人的效果。

然而，RLVR的一个根本问题尚未得到充分理解：**响应级别的奖励如何转化为token级别的概率更新？**

传统RLVR方法将整个响应的奖励平均分配给所有token，这种粗粒度的信用分配可能稀释了真正关键的决策token的信号。

## DelTA的核心洞察

DelTA（Discriminative Token Credit Assignment）从一个全新的视角审视RLVR更新过程——**判别器视角**。

### Token梯度向量的线性判别

研究团队发现，策略梯度更新方向实际上是在token梯度向量空间上的一个**线性判别器**，它决定了哪些token的概率应该增加，哪些应该减少。

在标准序列级RLVR中，这个判别器由正负样本的质心（centroid）构建：

- **正例质心**：高奖励响应的token梯度加权平均
- **负例质心**：低奖励响应的token梯度加权平均

### 共享模式的干扰

问题在于，这种质心构建方法容易被共享的高频模式主导，例如格式token（如换行符、缩进等）。这些token在所有响应中都频繁出现，会稀释稀疏但具有强判别性的方向——那些真正区分高奖励和低奖励响应的关键token。

## DelTA的方法设计

为解决上述问题，DelTA提出了判别式Token信用分配方法：

### 1. Token系数估计

DelTA学习为每个token估计一个系数，用于：
- **放大**具有判别性的token梯度方向
- **抑制**共享或弱判别性的token

### 2. 自归一化RLVR替代目标

这些系数被用来重新加权自归一化的RLVR替代目标函数，使得正负样本的质心更加具有对比性，从而重塑RLVR的更新方向。

### 3. Margin-Coupled GRPO

DelTA还引入了Margin-Coupled GRPO，联合优化基于rollout的关系推理和连续边界回归，使可解释的比较理由与细粒度的数值差异对齐。

## 实验结果

研究团队在7个数学推理基准上进行了全面评估：

### 主要结果

- **Qwen3-8B-Base**：相比最强同规模基线，平均提升**3.26**个百分点
- **Qwen3-14B-Base**：相比最强同规模基线，平均提升**2.62**个百分点

### 泛化能力验证

除数学推理外，DelTA还展示了强大的泛化能力：

- **代码生成**：在不同编程任务上保持性能提升
- **不同骨干网络**：在多种架构上验证有效性
- **域外评估**：在未见过的任务类型上表现稳健

这些结果证明了DelTA方法不仅适用于特定模型或任务，而是一种通用的RLVR改进策略。

## 技术意义与启示

DelTA的研究带来了几个重要启示：

### 细粒度信用分配的重要性

传统RLVR将响应视为整体进行奖惩，而DelTA表明，识别响应内部不同token的相对重要性可以显著提升学习效率。这与人类学习过程类似——我们不仅知道答案对错，更关注关键推理步骤。

### 判别性特征的自动发现

DelTA的系数学习机制可以看作是一种自动的特征选择过程，它识别出哪些token对区分好坏响应最有价值。这种自动发现减少了对人工设计奖励 shaping 的依赖。

### 与现有方法的兼容性

DelTA可以与现有的RLVR框架（如PPO、GRPO）无缝集成，作为一种即插即用的信用分配模块。这意味着研究人员和工程师可以在不大幅改动现有训练流程的情况下获得性能提升。

## 实际应用价值

对于希望提升模型推理能力的实践者，DelTA提供了：

1. **更高效的训练**：通过更精确的信用分配，减少达到同等性能所需的训练步数
2. **更好的可解释性**：token系数揭示了模型学习过程中关注的决策点
3. **降低超参调优成本**：自动化的信用分配减少了对奖励缩放等超参的敏感性

## 局限与未来方向

尽管DelTA取得了显著进展，仍有值得探索的方向：

- **长序列优化**：对于极长响应，token级信用分配的计算成本需要进一步优化
- **多轮对话**：将DelTA扩展到多轮交互场景
- **与其他技术的结合**：探索DelTA与过程监督、蒙特卡洛树搜索等方法的协同效果

## 总结

DelTA通过判别器视角重新诠释了RLVR的更新机制，提出了一种更精细的Token信用分配方法。其核心创新在于识别并放大了真正具有判别性的token信号，而非被共享的格式模式所干扰。在数学推理基准上的显著提升，以及跨任务、跨模型的泛化能力，证明了这种方法的实用价值。随着RLVR在LLM训练中的普及，DelTA所代表的细粒度信用分配思路将成为提升训练效率和模型能力的重要方向。