正文

DelTA：可验证奖励强化学习中的判别式Token信用分配方法

DelTA提出了一种新的RLVR训练方法，通过判别式Token信用分配机制，放大具有判别性的token梯度方向，抑制共享的高频模式，在数学推理基准上相比基线提升3.26和2.62个百分点。

强化学习RLVR大语言模型推理能力信用分配Token级优化数学推理GRPO策略梯度机器学习

发布时间 2026/05/21 01:53最近活动 2026/05/21 11:20预计阅读 2 分钟

章节 01

DelTA方法导读：提升RLVR中Token级信用分配效率

DelTA（判别式Token信用分配方法）是针对可验证奖励强化学习（RLVR）的创新训练方法，核心在于通过判别式Token信用分配机制放大具有判别性的token梯度方向，抑制共享的高频模式。该方法在数学推理基准上，Qwen3-8B-Base相比最强同规模基线平均提升3.26个百分点，Qwen3-14B-Base提升2.62个百分点，有效解决传统RLVR中响应级奖励平均分配稀释关键token信号的问题。

章节 02

RLVR的崛起与核心挑战

基于可验证奖励的强化学习（RLVR）已成为提升大语言模型推理能力的核心技术，在数学推理、代码生成等任务上效果显著（如DeepSeek-R1、OpenAI o系列模型）。但RLVR存在根本问题：响应级奖励如何转化为token级概率更新？传统方法将整个响应的奖励平均分配给所有token，粗粒度的信用分配可能稀释真正关键决策token的信号。

章节 03

DelTA的核心方法设计

DelTA从判别器视角重新审视RLVR更新过程：

Token梯度向量的线性判别：策略梯度更新方向是token梯度向量空间的线性判别器，由正负样本质心构建，但易被共享高频模式（如格式token）主导；
Token系数估计：学习为每个token估计系数，放大判别性token梯度，抑制共享/弱判别性token；
自归一化RLVR替代目标：用系数重新加权目标函数，增强正负样本质心对比；
Margin-Coupled GRPO：联合优化基于rollout的关系推理和连续边界回归，对齐可解释比较理由与细粒度数值差异。

章节 04

DelTA实验结果：数学推理与泛化能力验证

在7个数学推理基准上的评估结果：

主要提升：Qwen3-8B-Base相比最强同规模基线平均提升3.26个百分点，Qwen3-14B-Base提升2.62个百分点；
泛化能力：在代码生成任务、不同骨干网络、域外任务上均保持性能提升，证明其通用RLVR改进策略的有效性。

章节 05

DelTA的技术意义与应用价值

技术意义：

细粒度信用分配重要性：识别响应内部token相对重要性提升学习效率，类似人类关注关键推理步骤；
自动判别特征发现：系数学习机制自动选择区分好坏响应的token，减少人工奖励shaping依赖；
兼容性：可与PPO、GRPO等现有RLVR框架无缝集成，即插即用。

应用价值：

更高效训练：精确信用分配减少训练步数；
更好可解释性：token系数揭示模型关注的决策点；
降低超参成本：减少对奖励缩放等超参的敏感性。

章节 06

DelTA的局限与未来探索方向

尽管DelTA取得显著进展，仍需探索：

长序列优化：极长响应下token级信用分配的计算成本优化；
多轮对话：扩展到多轮交互场景；
技术协同：与过程监督、蒙特卡洛树搜索等方法结合的效果。

DelTA：可验证奖励强化学习中的判别式Token信用分配方法

DelTA方法导读：提升RLVR中Token级信用分配效率

RLVR的崛起与核心挑战

DelTA的核心方法设计

DelTA实验结果：数学推理与泛化能力验证

DelTA的技术意义与应用价值

DelTA的局限与未来探索方向

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统