正文

TEMPO：通过EM算法实现测试时训练的持续扩展

TEMPO将测试时训练形式化为EM算法，通过策略优化与critic重新校准的交替迭代，解决现有TTT方法的性能瓶颈问题，在AIME 2024上实现显著突破。

测试时训练EM算法强化学习推理模型奖励校准自举学习持续改进

发布时间 2026/04/21 18:01最近活动 2026/04/22 12:24预计阅读 3 分钟

章节 01

导读：TEMPO——解决测试时训练瓶颈的EM算法创新

TEMPO将测试时训练（TTT）形式化为期望最大化（EM）算法，通过策略优化与critic重新校准的交替迭代，解决现有TTT方法性能快速提升后陷入平台期的瓶颈问题。该方法在AIME 2024等数学推理任务上实现显著突破，为推理阶段持续扩展模型能力提供新范式。

章节 02

背景：测试时训练的潜力与现有瓶颈

测试时训练的范式

大语言模型部署后参数固定，测试时训练（TTT）提出在推理阶段继续学习：面对测试样本，先利用无标注数据更新参数再推理，理论上突破预训练限制。

现有TTT的瓶颈

现有方法存在性能快速提升后陷入平台期的问题，增加计算资源不再收益，甚至出现"退化"现象——准确率下降、输出多样性丧失。

问题根源

核心在于自举奖励信号漂移：策略模型与奖励模型耦合，反馈循环导致奖励标准失准，模型倾向于给自己高分，失去客观性。

章节 03

TEMPO的核心方法：EM框架与Critic重校准

EM算法形式化

TEMPO将TTT重新形式化为EM算法实例：

E步：基于当前策略评估无标注问题的潜在奖励
M步：基于估计奖励优化策略参数现有TTT仅执行不完整EM迭代（缺失策略更新后critic调整）。

Critic重校准机制

关键创新是交替策略优化与critic重校准：

策略精炼：无标注问题上多轮策略优化
Critic重校准：用少量标注数据更新奖励模型，恢复客观标准
循环迭代：确保奖励不漂移，策略优化基于可靠反馈

理论保证

从变分推断角度，EM迭代持续收紧证据下界（ELBO），保证对数似然单调提升，解释持续性能改进。

章节 04

实验证据：TEMPO的性能突破

模型与数据集

模型：Qwen3系列（7B/14B/32B）、OLMO3系列（7B/14B）
任务：AIME 2024（数学竞赛）、GSM8K、MATH、GPQA

主要结果

OLMO3-7B on AIME 2024：基线33.0%→TEMPO51.1%（+18.1%）
Qwen3-14B on AIME2024：基线42.3%→TEMPO65.8%（+23.5%）性能随计算资源增加持续提升，无平台期。

对比与多样性

TEMPO显著优于标准TTT、固定Critic、在线Critic等基线；同时保持高输出多样性，避免同质化。

章节 05

深入分析：EM机制为何有效？

奖励质量稳定

标准TTT：奖励质量（与真实准确率相关系数）从0.85降至0.45
TEMPO：奖励质量稳定在0.80以上

策略轨迹平滑

标准TTT：参数震荡收敛到低质量局部最优
TEMPO：参数平滑向高质量区域移动

计算效率

重校准频率低（每10-20轮策略优化一次），总体计算成本影响有限，性能-计算权衡优于基线。

章节 06

研究启示：测试时学习的新范式

测试时计算的新方向

将测试时计算用于真正学习，模型可"边想边学"动态提升能力，而非仅生成样本投票。

自举学习的理论基础

EM视角证明自举可行，关键是保持奖励客观性，为复杂自举机制设计提供方向。

部署新范式

基础模型小规模降低成本，面对任务时通过TTT特化，每个用户/会话可拥有特化模型，降低AI系统部署门槛。

章节 07

局限与未来方向

当前局限

依赖少量标注数据进行critic校准
TTT比标准推理慢数倍
主要验证数学推理，其他领域泛化性待验证

未来研究

无标注校准：对抗校准或元学习
高效实现：降低推理延迟
多任务TTT：共享经验加速新任务适应
理论深化：EM框架下收敛保证与复杂度界限