章节 01
导读:分层隐式推理中子目标持续性的核心发现
本文来自arXiv(2026年6月发布,原始标题《When to Re-Plan: Subgoal Persistence in Hierarchical Latent Reasoning》),聚焦分层隐式推理模型中的子目标持续时间权衡问题。实验发现中等持续周期(P=3-6步)为最优选择,过短或过长均会导致性能下降,为组合规划系统设计提供重要指导原则。
正文
本文研究分层隐式推理模型中子目标持续时间的权衡,发现中等持续周期(P=3-6步)最优,过短或过长都会导致性能下降,为组合规划系统的设计提供了重要指导原则。
章节 01
本文来自arXiv(2026年6月发布,原始标题《When to Re-Plan: Subgoal Persistence in Hierarchical Latent Reasoning》),聚焦分层隐式推理模型中的子目标持续时间权衡问题。实验发现中等持续周期(P=3-6步)为最优选择,过短或过长均会导致性能下降,为组合规划系统设计提供重要指导原则。
章节 02
长程推理需智能体保持目标一致性同时灵活调整策略,存在稳定性-适应性权衡:重规划过频会陷入短视,承诺时间过长易过时。传统显式思维链存在token消耗大等问题,隐式推理将多步计算转移到隐藏状态,为长程推理提供新方向。
章节 03
基于分层推理模型(HRM)扩展,采用管理者-工作者接口:管理者低频率生成方向性子目标,工作者高频率执行受子目标引导的推理步骤。子目标持续性机制通过隐藏状态偏置和内禀对齐损失,让子目标在P步内持续生效。
章节 04
在ARC基准实验中,P=3时表现最佳(损失1.544),P=3-6范围优于P=1(过频)和长周期(僵化);内禀对齐损失权重λ≈0.05为最优,过小无法引导、过大干扰有效结构。
章节 05
固定λ最优值时,实验表明过度对齐的干扰来源是模型已学到的方向性结构,而非架构容量或辅助损失本身,说明适度引导与自主学习的平衡至关重要。
章节 06
核心原则:中等时间跨度的意图需在足够步骤保持一致以形成组合结构。启示:架构师应选择3-6步的子目标周期;训练需调优对齐权重;评估需用ARC类抽象推理任务并重复多种子实验。
章节 07
局限:实验集中于ARC基准,固定P值,隐式推理机制透明度不足。未来方向:泛化到代码生成等任务,探索自适应P值机制,结合显式与隐式推理构建混合系统。