# 突破RLVR能力天花板：基于变分自编码器的潜变量马尔可夫世界模型

> 研究者提出用VAE学习推理轨迹的紧凑潜状态表示，替代传统RLVR中的完整token历史，通过不确定性驱动的探索机制实现真正的能力扩展而非简单采样重分布

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-17T18:04:05.000Z
- 最近活动: 2026-04-17T18:19:59.046Z
- 热度: 150.7
- 关键词: 强化学习, RLVR, GRPO, 世界模型, 变分自编码器, 推理能力, 马尔可夫状态, 不确定性探索
- 页面链接: https://www.zingnex.cn/forum/thread/rlvr-1a83602c
- Canonical: https://www.zingnex.cn/forum/thread/rlvr-1a83602c
- Markdown 来源: ingested_event

---

## RLVR的根本困境：非马尔可夫状态表示\n\n强化学习后训练（RLVR、GRPO、PPO）已成为提升大语言模型推理能力的主流方法。然而，这些方法存在一个结构性问题：策略网络接收的"状态"是截至目前生成的所有token的完整拼接——这是一个无界、冗余、非马尔可夫的庞大对象。\n\n这种退化状态表示的后果已被学术界充分记录：RLVR只能提高模型在其已有能力范围内的采样效率，却无法突破推理能力的天花板。模型只是在重新分配它本就能生成的解的路径概率，而非发现新的推理策略。\n\nYue等人在NeurIPS 2025上的工作从理论上证明了这一点。Yuan与Xie在2026年3月的研究进一步证实：引入显式的马尔可夫状态可以打破这一天花板——但他们使用的是在token空间操作的外部状态预测器。\n\n## 核心洞察：从token空间到潜空间\n\nToken空间的状态总结器只是压缩了关于解空间的语言描述，并未真正发现解空间的结构，也不携带不确定性信号。本项目的核心问题是：如果状态是从推理轨迹中端到端学习的——一个对解空间位置的压缩潜信念，从数据中发现，并内置认知不确定性——会发生什么？\n\n研究者提出了一种基于变分自编码器（VAE）的潜变量马尔可夫世界模型（Latent Markov World Model），其核心思想是：\n\n### 1. 潜状态表示\n\nVAE在推理轨迹上训练，学习当前推理者在解空间中位置的紧凑潜表示。编码器将轨迹的最后层隐状态映射为潜空间中的分布参数（μ, σ²），解码器则从潜变量重建轨迹表示。\n\n### 2. 不确定性驱动的探索\n\nVAE后验的方差提供了一个关键信号：\n\n- **高方差** = 高不确定性 = 需要探索\n- **低方差** = 高置信度 = 可以利用\n\n通过将KL散度作为内在奖励项，模型在早期训练阶段优先探索，在后期则转向利用已发现的有效策略。\n\n### 3. 策略条件化\n\nRL策略网络接收的是从编码器后验采样的潜变量z，而非原始token历史。这使得策略在一个真正的马尔可夫状态上操作，实现了真正的能力发现而非路径重分布。\n\n## 实验设计：严格的对照实验\n\n研究者在极具挑战性的MATH-Beyond基准上进行了严格的对照实验。该基准包含MATH-B-I子集——即所有列出的基础模型在pass@1024指标上均为0的难题。这确保实验是在真正的能力边界上进行的。\n\n实验设置了四个对比组，共享相同的基础模型、奖励函数和解码预算，仅状态表示不同：\n\n| 实验组 | 状态表示 | 设计目的 |\n|--------|----------|----------|\n| baseline_grpo | 完整token历史 | 标准RLVR对照 |\n| token_markov_grpo | Token空间马尔可夫预测器 | Yuan方法的复现 |\n| latent_grpo | VAE潜状态（无不确定性奖励） | 验证潜状态本身的价值 |\n| latent_grpo_uncertainty | VAE潜状态 + KL探索奖励 | 完整方法 |\n\n## 技术架构与实现\n\n项目采用模块化设计，核心组件包括：\n\n**VAE状态编码器**（`vae_state_encoder.py`）：\n- 输入：主干模型最后层的隐状态序列\n- 编码器：2-3层MLP，输出潜空间分布参数\n- 潜维度：64-128维\n- 训练目标：标准ELBO（重构损失 + KL散度）\n\n**不确定性奖励模块**（`reward_bonus.py`）：\n- 内在奖励项：β_t × KL(q(z|τ) ‖ p(z))\n- β随训练退火，早期鼓励探索，后期偏向利用\n\n**训练框架**：\n- 策略主干：Qwen2.5-1.5B-Instruct\n- RL算法：GRPO via TRL\n- 超参数：学习率1e-6，KL系数0.001，批次大小128，组大小8\n\n## 科学意义与未来方向\n\n这项工作的重要性在于将世界模型的哲学从物理环境推广到抽象推理：\n\n- **LeWM、JEPA、Dreamer**等模型预测物理世界的下一帧\n- **Latent Markov World Model**建模的是智能体对问题当前理解的"认知状态"\n\n如果这种方法在数学推理上有效，其泛化路径是直接的：\n\n- 用扩散模型替代VAE → 更丰富、渐进式的信念状态去噪\n- 添加世界模型动力学 → 在潜空间中规划多步推理\n- 应用到代码生成、定理证明、科学发现等领域\n\n## 总结\n\nLatent Markov World Model代表了对RLVR瓶颈的根本性反思。它指出：token级历史不是推理的合适状态表示，真正的突破需要学习解空间的结构化潜表示。通过将认知不确定性显式纳入探索机制，该方法有望实现从"采样效率提升"到"能力边界扩展"的范式转变。