# RELEX：基于Rank-1轨迹外推的极简RLVR训练方法

> 研究发现RLVR权重轨迹具有极低秩且高度可预测的特性，提出RELEX方法通过短时观察窗口估计rank-1子空间并线性外推未来检查点，仅需15%训练步数即可匹配或超越完整RLVR性能，可外推至观察窗口10-20倍远的步数。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-20T17:53:20.000Z
- 最近活动: 2026-05-21T02:51:33.446Z
- 热度: 151.0
- 关键词: RLVR, 强化学习, 低秩近似, 训练外推, 推理能力, 参数轨迹, Qwen, 计算效率
- 页面链接: https://www.zingnex.cn/forum/thread/relex-rank-1rlvr
- Canonical: https://www.zingnex.cn/forum/thread/relex-rank-1rlvr
- Markdown 来源: ingested_event

---

## 背景：RLVR的高昂训练成本

基于可验证奖励的强化学习（RLVR）已成为提升大语言模型（LLM）推理能力的主流范式。从DeepSeek-R1到OpenAI的o系列模型，RLVR在数学推理、代码生成等任务上展现出惊人的效果。然而，RLVR训练的计算成本极为高昂——通常需要数千步梯度更新，在数百至数千GPU上运行数天，消耗大量计算资源。

这一成本瓶颈引发了一个核心问题：RLVR训练是否必须如此漫长？是否存在更高效的方式达到同等性能？传统观点倾向于通过改进奖励模型、优化策略梯度算法或设计更好的探索策略来提升样本效率，但这些方法仍遵循"训练至收敛"的范式。

## 核心发现：RLVR轨迹的低秩特性

研究团队对RLVR训练过程中的参数变化轨迹进行了几何分析，发现了一个令人惊讶的现象：RLVR权重轨迹（weight trajectories）具有极低的有效秩（extremely low-rank）。具体而言，参数增量（parameter deltas）的大部分信息可被rank-1近似所捕获，且该rank-1投影的幅度随训练步数近似线性增长。

这一发现具有深刻的理论意义。如果权重更新主要发生在一个低维子空间中，那么整个训练过程可能远比表面看起来更简单——它本质上是在一个一维方向上逐步调整模型行为。这也意味着，一旦识别出这个主导方向，未来的参数变化可能可以被预测，而无需实际执行训练。

## RELEX方法设计

基于上述发现，研究团队提出了RELEX（REinforcement Learning EXtrapolation），一种极简的RLVR训练外推方法。RELEX的核心思想是：通过观察短时间的训练轨迹，估计出主导的rank-1子空间，然后利用线性回归外推未来的检查点，完全无需训练新的模型。

### 算法流程

**步骤一：观察窗口采集**：运行标准RLVR训练一段较短时间（如50-100步），采集各步的参数增量Δθ_t。

**步骤二：Rank-1子空间估计**：对采集的Δθ_t矩阵进行奇异值分解（SVD），提取最大奇异值对应的左右奇异向量，构成rank-1子空间的估计。

**步骤三：线性外推**：拟合rank-1投影幅度与步数的线性关系，预测未来步数的参数增量。

**步骤四：检查点合成**：将外推的增量累加到初始参数，生成未来检查点的估计。

整个过程仅需矩阵分解和线性回归，计算开销可忽略不计，与RLVR训练本身相比几乎可以忽略。

## 实验验证与关键结果

研究团队在三个不同规模的模型上验证了RELEX：Qwen2.5-Math-1.5B、Qwen3-4B-Base和Qwen3-8B-Base。实验覆盖了数学推理、代码生成等多个任务，评估了in-domain和out-of-domain性能。

**训练效率提升**：RELEX仅需完整RLVR训练15%的步数即可达到匹配甚至超越的性能。这意味着原本需要1000步的训练，现在只需观察前150步即可外推至最终效果。

**超远外推能力**：最令人惊讶的是，RELEX能够外推远超观察窗口的范围。实验显示，仅观察前50步，RELEX可成功外推至1000步（20倍外推），且性能持续提升。这远超传统时间序列预测方法的能力范围。

**跨域泛化**：RELEX生成的检查点不仅在训练任务上表现优异，在未见过的任务上也展现出良好的泛化能力，与完整RLVR训练的模型相当。

## 消融分析与机制理解

为理解RELEX成功的关键，研究团队进行了系统的消融实验。

**Rank-1的充分性**：实验表明，增加子空间秩（如使用rank-2或rank-5）并不能带来更好的外推效果。这一结果验证了核心发现——RLVR训练的主导动态确实集中在一个一维方向上。

**线性模型的充分性**：尝试使用非线性模型（如神经网络或高阶多项式）进行外推，并未带来性能提升。这说明rank-1投影幅度与步数的关系确实是近似线性的。

**去噪效应解释**：研究团队提出，RELEX的成功源于一种"去噪"效应。原始RLVR更新包含大量随机优化噪声，这些噪声在参数空间中呈高维分布。通过将更新投影到rank-1子空间，RELEX有效过滤了这些噪声，保留了真正驱动性能提升的信号。这种去噪使得外推更加稳定，避免了噪声累积导致的性能退化。

## 对RLVR实践的启示

RELEX的发现对RLVR训练实践具有多重启示。首先，它表明RLVR训练可能比预期更快收敛——如果主要改进发生在一个低维子空间中，或许可以设计更高效的优化算法直接在该子空间中搜索。

其次，RELEX提供了一种"预览"训练效果的手段。通过短时间的试探性训练，研究者可以预测完整训练的潜在收益，从而决定是否值得投入更多资源。这对于超参数搜索和消融研究尤其有价值。

最后，RELEX揭示了RLVR训练的几何结构，为理解强化学习如何改变语言模型的推理行为提供了新视角。未来研究可以探索不同任务、不同模型规模下rank-1子空间的特性，以及如何利用这些知识设计更好的训练算法。

## 局限与未来方向

当前RELEX的实现主要针对基于策略梯度的RLVR训练，对其他强化学习变体（如基于价值函数的方法）的适用性有待验证。此外，rank-1假设在训练后期是否仍然成立，以及如何处理多任务训练中的多个主导方向，是值得进一步探索的问题。

未来研究方向包括：开发自适应方法动态调整子空间秩；探索RELEX与模型合并（model merging）技术的结合；以及将低秩外推思想应用于其他类型的训练动态，如监督微调和持续学习。