章节 01
导读:Tsallis损失连续体解决推理模型冷启动新范式
本文提出基于Tsallis q-对数定义的损失函数族,在RLVR(强化学习from可验证奖励)和密度估计之间插值,通过梯度放大机制解决推理模型初始成功率低时的训练停滞问题。研究推出GARL(梯度放大RL)和PAFT(后验衰减微调)两种算法,并在FinQA、HotPotQA等推理基准验证其有效性,为推理模型后训练提供新范式。
正文
本文提出使用Tsallis q-对数定义的损失函数族,在RLVR和密度估计之间插值,通过梯度放大机制解决推理模型在初始成功率低时的训练停滞问题。
章节 01
本文提出基于Tsallis q-对数定义的损失函数族,在RLVR(强化学习from可验证奖励)和密度估计之间插值,通过梯度放大机制解决推理模型初始成功率低时的训练停滞问题。研究推出GARL(梯度放大RL)和PAFT(后验衰减微调)两种算法,并在FinQA、HotPotQA等推理基准验证其有效性,为推理模型后训练提供新范式。
章节 02
现代大语言模型后训练需适应特定推理任务(如数学求解、多跳问答),但常仅能获得输出级监督信号。RLVR是主流方法,但初始成功率低时会陷入冷启动——信号稀疏,模型难以获得正向反馈。传统解决方案(SFT预热、奖励塑形、课程学习)存在需额外标注或复杂度高的问题。
章节 03
研究从Tsallis熵获灵感,定义损失函数族J_Q,在q∈[0,1]间插值:q=0对应RLVR(利用极),q=1对应密度估计(探索极)。所有成员共享梯度方向,区别仅在标量放大因子P_θ^(-q)。该机制加速冷启动逃逸:q=0时逃逸时间Ω(1/p0),q=1时缩短至Θ(log(1/p0)),中间q值权衡逃逸速度与噪声记忆。
章节 04
因P_θ难计算,推出两种蒙特卡洛估计器:
章节 05
在FinQA、HotPotQA、MuSiQue基准实验:
章节 06
q值选择:
| q值 | 冷启动逃逸 | 训练稳定性 | 适用场景 |
|---|---|---|---|
| 接近0 | 慢 | 高 | 暖启动、稳定任务 |
| 0.5-0.75 | 中等 | 中等 | 通用选择 |
| 接近1 | 快 | 可能低 | 困难冷启动 |
| 算法选择:GARL适用于结构化任务、低方差需求;PAFT适用于开放推理、稳定性优先场景。框架统一RLVR、SFT预热等现有方法。 |
章节 07
理论贡献:统一推理模型训练动态框架,系统探索利用-探索权衡; 实践价值:提供解决冷启动的算法及超参数指导; 未来方向:自适应q值调整、结合PPO/DPO等技术、深化理论分析、扩展至更多任务(代码生成、定理证明)。
章节 08
Tsallis损失连续体框架为推理模型训练提供强大工具,解决冷启动问题并统一不同训练策略。GARL和PAFT算法在实验中表现优异,尤其冷启动场景优于传统RLVR。该工作为研究者和工程师提供新思路,有望成为推理模型训练的重要组成部分。