Zing 论坛

正文

Tsallis损失连续体:解决推理模型冷启动困境的新训练范式

本文提出使用Tsallis q-对数定义的损失函数族,在RLVR和密度估计之间插值,通过梯度放大机制解决推理模型在初始成功率低时的训练停滞问题。

强化学习推理模型冷启动Tsallis熵后训练大语言模型梯度优化
发布时间 2026/04/29 01:52最近活动 2026/04/29 12:30预计阅读 2 分钟
Tsallis损失连续体:解决推理模型冷启动困境的新训练范式
1

章节 01

导读:Tsallis损失连续体解决推理模型冷启动新范式

本文提出基于Tsallis q-对数定义的损失函数族,在RLVR(强化学习from可验证奖励)和密度估计之间插值,通过梯度放大机制解决推理模型初始成功率低时的训练停滞问题。研究推出GARL(梯度放大RL)和PAFT(后验衰减微调)两种算法,并在FinQA、HotPotQA等推理基准验证其有效性,为推理模型后训练提供新范式。

2

章节 02

研究背景:推理模型后训练的冷启动困境

现代大语言模型后训练需适应特定推理任务(如数学求解、多跳问答),但常仅能获得输出级监督信号。RLVR是主流方法,但初始成功率低时会陷入冷启动——信号稀疏,模型难以获得正向反馈。传统解决方案(SFT预热、奖励塑形、课程学习)存在需额外标注或复杂度高的问题。

3

章节 03

理论框架:Tsallis损失连续体的核心机制

研究从Tsallis熵获灵感,定义损失函数族J_Q,在q∈[0,1]间插值:q=0对应RLVR(利用极),q=1对应密度估计(探索极)。所有成员共享梯度方向,区别仅在标量放大因子P_θ^(-q)。该机制加速冷启动逃逸:q=0时逃逸时间Ω(1/p0),q=1时缩短至Θ(log(1/p0)),中间q值权衡逃逸速度与噪声记忆。

4

章节 04

训练算法:GARL与PAFT的实现与分析

因P_θ难计算,推出两种蒙特卡洛估计器:

  1. GARL:从策略采样轨迹,放大成功轨迹梯度,方差低;
  2. PAFT:对成功轨迹重要性重采样后做SFT,梯度语义连贯。 两种估计器偏差为O(q/(M·P_θ^(q+1))),q增大需更多样本控偏差。
5

章节 05

实验验证:冷启动与暖启动场景的结果

在FinQA、HotPotQA、MuSiQue基准实验:

  • 冷启动场景:GARL(q=0.75)成功逃离冷启动,GRPO(RLVR变体)失败;
  • 暖启动场景:FinQA低q值GARL最优;HotPotQA/MuSiQue中PAFT(q=0.75)稳定,HotPotQA提升14.4个百分点;
  • 稳定性:结构化任务(FinQA)GARL稳定,开放推理任务(HotPotQA)PAFT更优。
6

章节 06

实践指导:q值与算法选择的权衡

q值选择

q值 冷启动逃逸 训练稳定性 适用场景
接近0 暖启动、稳定任务
0.5-0.75 中等 中等 通用选择
接近1 可能低 困难冷启动
算法选择:GARL适用于结构化任务、低方差需求;PAFT适用于开放推理、稳定性优先场景。框架统一RLVR、SFT预热等现有方法。
7

章节 07

研究意义与未来方向

理论贡献:统一推理模型训练动态框架,系统探索利用-探索权衡; 实践价值:提供解决冷启动的算法及超参数指导; 未来方向:自适应q值调整、结合PPO/DPO等技术、深化理论分析、扩展至更多任务(代码生成、定理证明)。

8

章节 08

总结:Tsallis损失连续体的价值与应用前景

Tsallis损失连续体框架为推理模型训练提供强大工具,解决冷启动问题并统一不同训练策略。GARL和PAFT算法在实验中表现优异,尤其冷启动场景优于传统RLVR。该工作为研究者和工程师提供新思路,有望成为推理模型训练的重要组成部分。