正文

Tsallis损失连续体：解决推理模型冷启动困境的新训练范式

本文提出使用Tsallis q-对数定义的损失函数族，在RLVR和密度估计之间插值，通过梯度放大机制解决推理模型在初始成功率低时的训练停滞问题。

强化学习推理模型冷启动Tsallis熵后训练大语言模型梯度优化

发布时间 2026/04/29 01:52最近活动 2026/04/29 12:30预计阅读 2 分钟

章节 01

导读：Tsallis损失连续体解决推理模型冷启动新范式

本文提出基于Tsallis q-对数定义的损失函数族，在RLVR（强化学习from可验证奖励）和密度估计之间插值，通过梯度放大机制解决推理模型初始成功率低时的训练停滞问题。研究推出GARL（梯度放大RL）和PAFT（后验衰减微调）两种算法，并在FinQA、HotPotQA等推理基准验证其有效性，为推理模型后训练提供新范式。

章节 02

研究背景：推理模型后训练的冷启动困境

现代大语言模型后训练需适应特定推理任务（如数学求解、多跳问答），但常仅能获得输出级监督信号。RLVR是主流方法，但初始成功率低时会陷入冷启动——信号稀疏，模型难以获得正向反馈。传统解决方案（SFT预热、奖励塑形、课程学习）存在需额外标注或复杂度高的问题。

章节 03

理论框架：Tsallis损失连续体的核心机制

研究从Tsallis熵获灵感，定义损失函数族J_Q，在q∈[0,1]间插值：q=0对应RLVR（利用极），q=1对应密度估计（探索极）。所有成员共享梯度方向，区别仅在标量放大因子P_θ^(-q)。该机制加速冷启动逃逸：q=0时逃逸时间Ω(1/p0)，q=1时缩短至Θ(log(1/p0))，中间q值权衡逃逸速度与噪声记忆。

章节 04

训练算法：GARL与PAFT的实现与分析

因P_θ难计算，推出两种蒙特卡洛估计器：

GARL：从策略采样轨迹，放大成功轨迹梯度，方差低；
PAFT：对成功轨迹重要性重采样后做SFT，梯度语义连贯。两种估计器偏差为O(q/(M·P_θ^(q+1)))，q增大需更多样本控偏差。

章节 05

实验验证：冷启动与暖启动场景的结果

在FinQA、HotPotQA、MuSiQue基准实验：

冷启动场景：GARL(q=0.75)成功逃离冷启动，GRPO（RLVR变体）失败；
暖启动场景：FinQA低q值GARL最优；HotPotQA/MuSiQue中PAFT(q=0.75)稳定，HotPotQA提升14.4个百分点；
稳定性：结构化任务（FinQA）GARL稳定，开放推理任务（HotPotQA）PAFT更优。

章节 06

实践指导：q值与算法选择的权衡

q值选择：

q值	冷启动逃逸	训练稳定性	适用场景
接近0	慢	高	暖启动、稳定任务
0.5-0.75	中等	中等	通用选择
接近1	快	可能低	困难冷启动
算法选择：GARL适用于结构化任务、低方差需求；PAFT适用于开放推理、稳定性优先场景。框架统一RLVR、SFT预热等现有方法。

章节 07

研究意义与未来方向

理论贡献：统一推理模型训练动态框架，系统探索利用-探索权衡； 实践价值：提供解决冷启动的算法及超参数指导； 未来方向：自适应q值调整、结合PPO/DPO等技术、深化理论分析、扩展至更多任务（代码生成、定理证明）。

章节 08

总结：Tsallis损失连续体的价值与应用前景

Tsallis损失连续体框架为推理模型训练提供强大工具，解决冷启动问题并统一不同训练策略。GARL和PAFT算法在实验中表现优异，尤其冷启动场景优于传统RLVR。该工作为研究者和工程师提供新思路，有望成为推理模型训练的重要组成部分。

Tsallis损失连续体：解决推理模型冷启动困境的新训练范式

导读：Tsallis损失连续体解决推理模型冷启动新范式

研究背景：推理模型后训练的冷启动困境

理论框架：Tsallis损失连续体的核心机制

训练算法：GARL与PAFT的实现与分析

实验验证：冷启动与暖启动场景的结果

实践指导：q值与算法选择的权衡

研究意义与未来方向

总结：Tsallis损失连续体的价值与应用前景

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

从零构建现代LLM：一个教学级的Llama风格语言模型实现