章节 01
【导读】突破RLVR能力天花板:基于VAE的潜变量马尔可夫世界模型核心解析
本文提出一种基于变分自编码器(VAE)的潜变量马尔可夫世界模型,旨在解决强化学习后训练(RLVR)中非马尔可夫状态表示的结构性问题。该模型通过学习推理轨迹的紧凑潜状态表示替代完整token历史,并引入不确定性驱动的探索机制,实现从"采样效率提升"到"能力边界扩展"的范式转变,为突破RLVR能力天花板提供新路径。
正文
研究者提出用VAE学习推理轨迹的紧凑潜状态表示,替代传统RLVR中的完整token历史,通过不确定性驱动的探索机制实现真正的能力扩展而非简单采样重分布
章节 01
本文提出一种基于变分自编码器(VAE)的潜变量马尔可夫世界模型,旨在解决强化学习后训练(RLVR)中非马尔可夫状态表示的结构性问题。该模型通过学习推理轨迹的紧凑潜状态表示替代完整token历史,并引入不确定性驱动的探索机制,实现从"采样效率提升"到"能力边界扩展"的范式转变,为突破RLVR能力天花板提供新路径。
章节 02
RLVR、GRPO等方法是提升大模型推理能力的主流,但存在结构性缺陷:策略网络接收的状态是无界、冗余的完整token历史(非马尔可夫)。这导致RLVR仅能提高已有能力范围内的采样效率,无法突破推理天花板(仅重分布解路径概率,未发现新策略)。Yue等2025年理论证明此问题,Yuan&Xie 2026年研究虽引入马尔可夫状态,但仍在token空间操作。
章节 03
本方法的核心是端到端学习解空间的结构化潜状态,包含三点:
章节 04
实验选择MATH-Beyond基准的MATH-B-I子集(基础模型pass@1024为0的难题),设置四组对照(共享基础模型、奖励、解码预算):
章节 05
项目采用模块化设计: VAE状态编码器:输入主干模型隐状态序列,2-3层MLP输出潜分布,潜维度64-128,训练目标为ELBO; 不确定性奖励模块:内在奖励β_t×KL(q(z|τ)||p(z)),β随训练退火; 训练框架:策略主干Qwen2.5-1.5B-Instruct,RL算法GRPO via TRL,超参数:学习率1e-6、KL系数0.001、批次128、组大小8。
章节 06
本工作将世界模型哲学从物理环境推广到抽象推理(如LeWM等预测物理帧,本模型建模认知状态)。未来方向:
章节 07
潜变量马尔可夫世界模型指出token级历史并非推理的合适状态表示,突破RLVR天花板需学习解空间的结构化潜表示。通过显式纳入认知不确定性探索,该方法有望实现从"采样效率提升"到"能力边界扩展"的范式转变,为大模型推理能力的进一步提升提供新方向。