Zing 论坛

正文

分层隐式推理中的子目标持续性:何时该重新规划?

本文研究分层隐式推理模型中子目标持续时间的权衡,发现中等持续周期(P=3-6步)最优,过短或过长都会导致性能下降,为组合规划系统的设计提供了重要指导原则。

隐式推理分层推理子目标规划ARC基准组合规划长程推理
发布时间 2026/06/02 22:55最近活动 2026/06/03 13:54预计阅读 2 分钟
分层隐式推理中的子目标持续性:何时该重新规划?
1

章节 01

导读:分层隐式推理中子目标持续性的核心发现

本文来自arXiv(2026年6月发布,原始标题《When to Re-Plan: Subgoal Persistence in Hierarchical Latent Reasoning》),聚焦分层隐式推理模型中的子目标持续时间权衡问题。实验发现中等持续周期(P=3-6步)为最优选择,过短或过长均会导致性能下降,为组合规划系统设计提供重要指导原则。

2

章节 02

研究背景:长程推理的稳定性-适应性困境

长程推理需智能体保持目标一致性同时灵活调整策略,存在稳定性-适应性权衡:重规划过频会陷入短视,承诺时间过长易过时。传统显式思维链存在token消耗大等问题,隐式推理将多步计算转移到隐藏状态,为长程推理提供新方向。

3

章节 03

模型架构:分层隐式推理的管理者-工作者机制

基于分层推理模型(HRM)扩展,采用管理者-工作者接口:管理者低频率生成方向性子目标,工作者高频率执行受子目标引导的推理步骤。子目标持续性机制通过隐藏状态偏置和内禀对齐损失,让子目标在P步内持续生效。

4

章节 04

关键发现:中等子目标周期(P=3-6)最优

在ARC基准实验中,P=3时表现最佳(损失1.544),P=3-6范围优于P=1(过频)和长周期(僵化);内禀对齐损失权重λ≈0.05为最优,过小无法引导、过大干扰有效结构。

5

章节 05

消融实验:过度对齐会干扰已学结构

固定λ最优值时,实验表明过度对齐的干扰来源是模型已学到的方向性结构,而非架构容量或辅助损失本身,说明适度引导与自主学习的平衡至关重要。

6

章节 06

设计原则与实践启示

核心原则:中等时间跨度的意图需在足够步骤保持一致以形成组合结构。启示:架构师应选择3-6步的子目标周期;训练需调优对齐权重;评估需用ARC类抽象推理任务并重复多种子实验。

7

章节 07

局限与未来研究方向

局限:实验集中于ARC基准,固定P值,隐式推理机制透明度不足。未来方向:泛化到代码生成等任务,探索自适应P值机制,结合显式与隐式推理构建混合系统。