Zing 论坛

正文

突破RLVR能力天花板:基于变分自编码器的潜变量马尔可夫世界模型

研究者提出用VAE学习推理轨迹的紧凑潜状态表示,替代传统RLVR中的完整token历史,通过不确定性驱动的探索机制实现真正的能力扩展而非简单采样重分布

强化学习RLVRGRPO世界模型变分自编码器推理能力马尔可夫状态不确定性探索
发布时间 2026/04/18 02:04最近活动 2026/04/18 02:19预计阅读 2 分钟
突破RLVR能力天花板:基于变分自编码器的潜变量马尔可夫世界模型
1

章节 01

【导读】突破RLVR能力天花板:基于VAE的潜变量马尔可夫世界模型核心解析

本文提出一种基于变分自编码器(VAE)的潜变量马尔可夫世界模型,旨在解决强化学习后训练(RLVR)中非马尔可夫状态表示的结构性问题。该模型通过学习推理轨迹的紧凑潜状态表示替代完整token历史,并引入不确定性驱动的探索机制,实现从"采样效率提升"到"能力边界扩展"的范式转变,为突破RLVR能力天花板提供新路径。

2

章节 02

背景:RLVR的根本困境与现有研究局限

RLVR、GRPO等方法是提升大模型推理能力的主流,但存在结构性缺陷:策略网络接收的状态是无界、冗余的完整token历史(非马尔可夫)。这导致RLVR仅能提高已有能力范围内的采样效率,无法突破推理天花板(仅重分布解路径概率,未发现新策略)。Yue等2025年理论证明此问题,Yuan&Xie 2026年研究虽引入马尔可夫状态,但仍在token空间操作。

3

章节 03

核心方法:潜变量马尔可夫世界模型的三大支柱

本方法的核心是端到端学习解空间的结构化潜状态,包含三点:

  1. 潜状态表示:VAE在推理轨迹上训练,编码器将轨迹隐状态映射为潜分布(μ,σ²),解码器重建轨迹;
  2. 不确定性探索:利用VAE后验方差作为信号(高方差→探索,低→利用),KL散度作为内在奖励项;
  3. 策略条件化:RL策略接收VAE采样的潜变量z,而非原始token历史,实现马尔可夫状态操作。
4

章节 04

实验设计:在能力边界上的严格对照

实验选择MATH-Beyond基准的MATH-B-I子集(基础模型pass@1024为0的难题),设置四组对照(共享基础模型、奖励、解码预算):

  • baseline_grpo:完整token历史(标准RLVR);
  • token_markov_grpo:Yuan方法复现(token空间马尔可夫预测器);
  • latent_grpo:VAE潜状态(无不确定性奖励);
  • latent_grpo_uncertainty:完整方法(VAE潜状态+KL探索奖励)。
5

章节 05

技术架构与实现细节

项目采用模块化设计: VAE状态编码器:输入主干模型隐状态序列,2-3层MLP输出潜分布,潜维度64-128,训练目标为ELBO; 不确定性奖励模块:内在奖励β_t×KL(q(z|τ)||p(z)),β随训练退火; 训练框架:策略主干Qwen2.5-1.5B-Instruct,RL算法GRPO via TRL,超参数:学习率1e-6、KL系数0.001、批次128、组大小8。

6

章节 06

科学意义与未来方向

本工作将世界模型哲学从物理环境推广到抽象推理(如LeWM等预测物理帧,本模型建模认知状态)。未来方向:

  • 用扩散模型替代VAE,实现更丰富的信念状态去噪;
  • 添加世界模型动力学,支持潜空间多步推理规划;
  • 扩展到代码生成、定理证明、科学发现等领域。
7

章节 07

总结:RLVR瓶颈的根本性反思

潜变量马尔可夫世界模型指出token级历史并非推理的合适状态表示,突破RLVR天花板需学习解空间的结构化潜表示。通过显式纳入认知不确定性探索,该方法有望实现从"采样效率提升"到"能力边界扩展"的范式转变,为大模型推理能力的进一步提升提供新方向。