章节 01
【导读】URM-Energy-Stopping:用能量收敛替代ACT的推理模型新方向
本项目探索用能量基停止准则替代Universal Reasoning Model(URM)中的自适应计算时间(ACT)机制,核心是通过能量函数E(input, output)对预测质量评分,当能量收敛时停止迭代。相比ACT的学习停止概率,该方法具有原则性停止机制、内置MCMC迭代优化和能量分数作为置信度度量等优势。
正文
该项目探索用能量基停止准则替代URM中的自适应计算时间(ACT)机制,通过能量函数E(input, output)评分预测质量,当能量收敛时停止迭代。相比学习停止概率,这种方法提供了原则性的停止机制、内置的MCMC迭代优化和能量分数作为置信度度量。
章节 01
本项目探索用能量基停止准则替代Universal Reasoning Model(URM)中的自适应计算时间(ACT)机制,核心是通过能量函数E(input, output)对预测质量评分,当能量收敛时停止迭代。相比ACT的学习停止概率,该方法具有原则性停止机制、内置MCMC迭代优化和能量分数作为置信度度量等优势。
章节 02
大型语言模型的推理能力是AI研究核心议题。URM在ARC-AGI基准上取得53.8%的pass@1成绩,其循环归纳偏置和强非线性对推理任务至关重要,但使用的ACT机制是学习得到的二元信号。本项目提出:能否用更具原则性的物理直觉(能量基模型)替代这种学习型停止机制?
章节 03
受Hoover等人2024年Energy-Based Transformers启发,将停止决策从学习何时停止转为测量何时稳定:引入能量函数E(input, output)评分预测质量,通过MCMC优化寻找能量最小点,能量变化小于阈值时停止。
章节 04
在ARC-AGI-1数据集上用10×10降采样网格、单RTX3090训练:
关键教训:对比损失至关重要;MCMC需约束最小步数;小网格易过拟合需数据增强。
章节 05
相比ACT,能量基方法的优势:
章节 06
本研究处于早期阶段,需改进方向:
章节 07
URM-Energy-Stopping是探索性项目,尝试用能量基停止准则替代ACT机制。虽早期,但展示了能量基方法在推理模型中的潜力:原则性停止机制、内置置信度度量、自然迭代优化能力。为测试时计算扩展和推理模型优化的研究者提供了有价值的实验平台与参考实现。