Zing 论坛

正文

URM-Energy-Stopping:用能量收敛替代自适应计算时间的推理模型新思路

该项目探索用能量基停止准则替代URM中的自适应计算时间(ACT)机制,通过能量函数E(input, output)评分预测质量,当能量收敛时停止迭代。相比学习停止概率,这种方法提供了原则性的停止机制、内置的MCMC迭代优化和能量分数作为置信度度量。

URMEnergy-Based Model能量基模型ACT自适应计算时间推理模型ARC-AGIMCMCLangevin动力学能量收敛
发布时间 2026/04/05 12:24最近活动 2026/04/05 12:52预计阅读 3 分钟
URM-Energy-Stopping:用能量收敛替代自适应计算时间的推理模型新思路
1

章节 01

【导读】URM-Energy-Stopping:用能量收敛替代ACT的推理模型新方向

本项目探索用能量基停止准则替代Universal Reasoning Model(URM)中的自适应计算时间(ACT)机制,核心是通过能量函数E(input, output)对预测质量评分,当能量收敛时停止迭代。相比ACT的学习停止概率,该方法具有原则性停止机制、内置MCMC迭代优化和能量分数作为置信度度量等优势。

2

章节 02

研究背景与动机

大型语言模型的推理能力是AI研究核心议题。URM在ARC-AGI基准上取得53.8%的pass@1成绩,其循环归纳偏置和强非线性对推理任务至关重要,但使用的ACT机制是学习得到的二元信号。本项目提出:能否用更具原则性的物理直觉(能量基模型)替代这种学习型停止机制?

3

章节 03

核心方法与技术架构

核心思想

受Hoover等人2024年Energy-Based Transformers启发,将停止决策从学习何时停止转为测量何时稳定:引入能量函数E(input, output)评分预测质量,通过MCMC优化寻找能量最小点,能量变化小于阈值时停止。

技术实现

  • 能量基URM模型:含MCMC优化循环、可学习步长和Langevin动力学噪声;
  • 回放缓冲区:存储多样化MCMC训练轨迹稳定训练;
  • 对比能量损失:基于边界的损失推动正确输入能量低于错误输入,防止能量崩溃;
  • 配置管理:使用Hydra管理超参数(如能量收敛阈值、噪声标准差等)。
4

章节 04

训练实验与关键发现

在ARC-AGI-1数据集上用10×10降采样网格、单RTX3090训练:

  • URM基线:快速收敛但严重过拟合;
  • Energy v0:能量崩溃(能量头对所有输入输出恒定);
  • Energy v1:添加对比损失修复崩溃,能量函数学会区分正确/错误输出;
  • Energy v2:移除ACT损失后MCMC仅1-2步,需最小步数限制和阈值调优。

关键教训:对比损失至关重要;MCMC需约束最小步数;小网格易过拟合需数据增强。

5

章节 05

理论优势与潜在价值

相比ACT,能量基方法的优势:

  1. 原则性停止机制:能量收敛有明确物理意义(局部能量最小,类似物理系统稳定);
  2. 内置置信度度量:能量分数直接反映预测置信度(低能量=高置信),支持不确定性量化;
  3. MCMC迭代优化:推理时可通过梯度下降进一步优化预测(类似扩散模型迭代去噪);
  4. 架构兼容性:与标准Transformer无缝集成,无需修改主干网络。
6

章节 06

当前局限与未来方向

本研究处于早期阶段,需改进方向:

  • 模型规模调整:当前隐藏维度64-128、2层配置需适配小网格或扩展到30×30大网格;
  • MCMC步数调优:强制最小步数以充分迭代;
  • 数据增强:增强小网格数据减少过拟合;
  • 超参数搜索:系统优化对比损失权重、边界值等;
  • 公平比较:在匹配架构上对比能量停止与ACT性能。
7

章节 07

总结与研究启示

URM-Energy-Stopping是探索性项目,尝试用能量基停止准则替代ACT机制。虽早期,但展示了能量基方法在推理模型中的潜力:原则性停止机制、内置置信度度量、自然迭代优化能力。为测试时计算扩展和推理模型优化的研究者提供了有价值的实验平台与参考实现。