章节 01
导读:TEMPO——解决测试时训练瓶颈的EM算法创新
TEMPO将测试时训练(TTT)形式化为期望最大化(EM)算法,通过策略优化与critic重新校准的交替迭代,解决现有TTT方法性能快速提升后陷入平台期的瓶颈问题。该方法在AIME 2024等数学推理任务上实现显著突破,为推理阶段持续扩展模型能力提供新范式。
正文
TEMPO将测试时训练形式化为EM算法,通过策略优化与critic重新校准的交替迭代,解决现有TTT方法的性能瓶颈问题,在AIME 2024上实现显著突破。
章节 01
TEMPO将测试时训练(TTT)形式化为期望最大化(EM)算法,通过策略优化与critic重新校准的交替迭代,解决现有TTT方法性能快速提升后陷入平台期的瓶颈问题。该方法在AIME 2024等数学推理任务上实现显著突破,为推理阶段持续扩展模型能力提供新范式。
章节 02
大语言模型部署后参数固定,测试时训练(TTT)提出在推理阶段继续学习:面对测试样本,先利用无标注数据更新参数再推理,理论上突破预训练限制。
现有方法存在性能快速提升后陷入平台期的问题,增加计算资源不再收益,甚至出现"退化"现象——准确率下降、输出多样性丧失。
核心在于自举奖励信号漂移:策略模型与奖励模型耦合,反馈循环导致奖励标准失准,模型倾向于给自己高分,失去客观性。
章节 03
TEMPO将TTT重新形式化为EM算法实例:
关键创新是交替策略优化与critic重校准:
从变分推断角度,EM迭代持续收紧证据下界(ELBO),保证对数似然单调提升,解释持续性能改进。
章节 04
TEMPO显著优于标准TTT、固定Critic、在线Critic等基线;同时保持高输出多样性,避免同质化。
章节 05
重校准频率低(每10-20轮策略优化一次),总体计算成本影响有限,性能-计算权衡优于基线。
章节 06
将测试时计算用于真正学习,模型可"边想边学"动态提升能力,而非仅生成样本投票。
EM视角证明自举可行,关键是保持奖励客观性,为复杂自举机制设计提供方向。
基础模型小规模降低成本,面对任务时通过TTT特化,每个用户/会话可拥有特化模型,降低AI系统部署门槛。
章节 07