Zing 论坛

正文

TEMPO:通过EM算法实现测试时训练的持续扩展

TEMPO将测试时训练形式化为EM算法,通过策略优化与critic重新校准的交替迭代,解决现有TTT方法的性能瓶颈问题,在AIME 2024上实现显著突破。

测试时训练EM算法强化学习推理模型奖励校准自举学习持续改进
发布时间 2026/04/21 18:01最近活动 2026/04/22 12:24预计阅读 3 分钟
TEMPO:通过EM算法实现测试时训练的持续扩展
1

章节 01

导读:TEMPO——解决测试时训练瓶颈的EM算法创新

TEMPO将测试时训练(TTT)形式化为期望最大化(EM)算法,通过策略优化与critic重新校准的交替迭代,解决现有TTT方法性能快速提升后陷入平台期的瓶颈问题。该方法在AIME 2024等数学推理任务上实现显著突破,为推理阶段持续扩展模型能力提供新范式。

2

章节 02

背景:测试时训练的潜力与现有瓶颈

测试时训练的范式

大语言模型部署后参数固定,测试时训练(TTT)提出在推理阶段继续学习:面对测试样本,先利用无标注数据更新参数再推理,理论上突破预训练限制。

现有TTT的瓶颈

现有方法存在性能快速提升后陷入平台期的问题,增加计算资源不再收益,甚至出现"退化"现象——准确率下降、输出多样性丧失。

问题根源

核心在于自举奖励信号漂移:策略模型与奖励模型耦合,反馈循环导致奖励标准失准,模型倾向于给自己高分,失去客观性。

3

章节 03

TEMPO的核心方法:EM框架与Critic重校准

EM算法形式化

TEMPO将TTT重新形式化为EM算法实例:

  • E步:基于当前策略评估无标注问题的潜在奖励
  • M步:基于估计奖励优化策略参数 现有TTT仅执行不完整EM迭代(缺失策略更新后critic调整)。

Critic重校准机制

关键创新是交替策略优化与critic重校准:

  1. 策略精炼:无标注问题上多轮策略优化
  2. Critic重校准:用少量标注数据更新奖励模型,恢复客观标准
  3. 循环迭代:确保奖励不漂移,策略优化基于可靠反馈

理论保证

从变分推断角度,EM迭代持续收紧证据下界(ELBO),保证对数似然单调提升,解释持续性能改进。

4

章节 04

实验证据:TEMPO的性能突破

模型与数据集

  • 模型:Qwen3系列(7B/14B/32B)、OLMO3系列(7B/14B)
  • 任务:AIME 2024(数学竞赛)、GSM8K、MATH、GPQA

主要结果

  • OLMO3-7B on AIME 2024:基线33.0%→TEMPO51.1%(+18.1%)
  • Qwen3-14B on AIME2024:基线42.3%→TEMPO65.8%(+23.5%) 性能随计算资源增加持续提升,无平台期。

对比与多样性

TEMPO显著优于标准TTT、固定Critic、在线Critic等基线;同时保持高输出多样性,避免同质化。

5

章节 05

深入分析:EM机制为何有效?

奖励质量稳定

  • 标准TTT:奖励质量(与真实准确率相关系数)从0.85降至0.45
  • TEMPO:奖励质量稳定在0.80以上

策略轨迹平滑

  • 标准TTT:参数震荡收敛到低质量局部最优
  • TEMPO:参数平滑向高质量区域移动

计算效率

重校准频率低(每10-20轮策略优化一次),总体计算成本影响有限,性能-计算权衡优于基线。

6

章节 06

研究启示:测试时学习的新范式

测试时计算的新方向

将测试时计算用于真正学习,模型可"边想边学"动态提升能力,而非仅生成样本投票。

自举学习的理论基础

EM视角证明自举可行,关键是保持奖励客观性,为复杂自举机制设计提供方向。

部署新范式

基础模型小规模降低成本,面对任务时通过TTT特化,每个用户/会话可拥有特化模型,降低AI系统部署门槛。

7

章节 07

局限与未来方向

当前局限

  1. 依赖少量标注数据进行critic校准
  2. TTT比标准推理慢数倍
  3. 主要验证数学推理,其他领域泛化性待验证

未来研究

  • 无标注校准:对抗校准或元学习
  • 高效实现:降低推理延迟
  • 多任务TTT:共享经验加速新任务适应
  • 理论深化:EM框架下收敛保证与复杂度界限