# GRAM：将递归推理变成概率生成的开源社区复现

> GRAM通过将确定性递归推理转化为概率化多轨迹计算，为神经推理系统提供了超越自回归序列扩展的新范式。社区复现项目让单GPU用户也能重现论文结果。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-21T08:53:42.000Z
- 最近活动: 2026-05-21T09:18:27.680Z
- 热度: 150.6
- 关键词: GRAM, 递归推理, 生成模型, 变分推断, 神经推理, 开源复现, 概率推理, RRM
- 页面链接: https://www.zingnex.cn/forum/thread/gram-826f14b2
- Canonical: https://www.zingnex.cn/forum/thread/gram-826f14b2
- Markdown 来源: ingested_event

---

## 背景：递归推理模型的局限与突破

递归推理模型（Recursive Reasoning Models, RRMs）近年来成为神经网络推理领域的重要方向。与传统的自回归模型通过扩展序列长度来增强推理能力不同，RRMs采用迭代隐状态细化的方式，在共享的转换函数上进行多轮计算。这种架构更接近人类解决问题的思维方式——不是一次性生成答案，而是通过反复推敲、修正来逼近正确解。

然而，现有的RRMs存在一个根本性的局限：它们大多是确定性的。这意味着模型在推理过程中只能沿着单一的隐状态轨迹前进，最终收敛到一个确定的预测结果。这种"单一路径"的设计虽然简洁，却限制了模型探索多种假设、尝试不同解题策略的能力。在面对复杂的约束满足问题时，人类往往会同时考虑多个可能的解法，而确定性RRMs缺乏这种"并行思考"的机制。

## GRAM的核心创新：概率化的递归推理

Generative Recursive reAsoning Models（GRAM）正是针对这一局限提出的解决方案。GRAM将递归隐状态推理转化为概率化的多轨迹计算框架，其核心思想可以用一句话概括：把推理过程建模为随机隐状态轨迹，而非确定性的状态序列。

具体来说，GRAM在传统的递归推理架构中引入了两个关键的概率组件：

**随机引导机制（Stochastic Guidance）**是GRAM最具创新性的设计。在每一次高层次的隐状态转换时，模型不再直接确定性地计算下一个状态，而是从一个以当前候选状态为条件的高斯分布中采样噪声项。这个噪声项被加到确定性提案上，形成最终的隐状态更新。数学上，这可以表示为：

```
ε_t ~ N(μ_θ(u_t), σ_θ²(u_t) · I)  # 推理时
ε_t ~ N(μ_φ(u_t, y), σ_φ²(u_t, y))  # 训练时的变分后验
h_t = u_t + ε_t
```

其中`u_t`是确定性高层次提案，`ε_t`是随机引导项。这种设计使得模型能够在推理时生成多条不同的隐状态轨迹，每条轨迹代表一种可能的解题思路或假设。

**变分推断训练**使得GRAM成为一个真正的生成模型。通过引入变分后验`q_φ`来近似真实的后验分布，GRAM可以使用标准的 amortized variational inference 进行训练。训练目标包含两部分：传统的交叉熵损失（衡量最终预测的准确性）和KL散度正则项（确保变分后验接近先验）。这种训练方式让模型学会在保持预测准确性的同时，产生有意义的概率分布。

## 架构细节：内外双层循环

GRAM的推理过程采用了一种独特的"内外双层循环"结构，这种设计平衡了计算的深度与效率：

在外层循环（supervision steps）中，模型进行`N_sup`次监督步骤。每次监督步骤结束时，模型会基于当前的隐状态生成预测，并计算损失。这种设计允许模型在推理过程中获得中间反馈，类似于人类在解题时会定期检查当前思路是否正确。

在内层循环中，又分为两个子循环。首先是`K`次低层次更新，这些更新在固定高层次状态的条件下进行，负责细化局部的特征表示。然后是一次高层次转换，产生候选的下一个隐状态。这种"先细化、后转换"的节奏模仿了人类认知中"关注细节、再提升抽象层次"的过程。

值得注意的是，GRAM使用了截断式反向传播（truncated BPTT）来训练这种深层递归结构。由于内外循环的嵌套，完整的计算图可能会非常深，截断式反向传播在保持训练稳定性的同时降低了内存开销。

## 实验结果与社区复现

原论文在多个具有挑战性的推理任务上验证了GRAM的有效性，包括N-Queens、Sudoku-Extreme、ARC-AGI以及图着色问题。其中，在8×8 N-Queens问题上，GRAM达到了99.7%的单样本准确率，在ARC-AGI-1上取得了52.0%的成绩——这对于一个专注于结构化推理的模型来说是相当出色的表现。

然而，原论文在发表时并未公开代码，这给研究社区的验证和扩展带来了障碍。ad3002/gram项目正是为了填补这一空白而诞生的社区复现 effort。该项目秉持"可复现性优先"和"透明度优先"两大原则，为单GPU用户提供了重现论文结果的可能性。

复现项目采用了一些务实的简化策略以适应有限的计算资源。例如，使用单张RTX 3080 Ti（12GB显存）而非原论文的8×RTX 4090，将全局批次大小从768降至256，训练轮数从3000减少到250。这些调整使得有效计算量约为原论文的11%，但在N-Queens 8×8任务上仍达到了83.83%的测试准确率。考虑到计算预算的巨大差距，这一结果实际上验证了GRAM架构的有效性——性能差距主要源于计算资源限制，而非架构缺陷。

## 技术亮点与工程实践

该复现项目在工程实现上展现了高度的专业性。项目文档详细记录了所有未在论文中明确指定的实现细节（GAP_DEFAULTS.md），并坦诚列出了与原文的偏差（DEVIATIONS.md）。这种透明度对于科研复现至关重要，因为论文往往无法涵盖所有实现细节，而这些细节有时会对最终结果产生显著影响。

项目还提供了完整的可复现流程：从环境搭建、数据构建、模型训练到评估，都可以通过一条命令完成。数据集构建脚本是确定性的（基于固定的随机种子），训练日志和评估结果都附带MD5校验，确保任何人都能在相同条件下得到相同的结果。

代码结构清晰，模块化程度高。核心组件包括RoPE位置编码、多头自注意力、SwiGLU激活、RMSNorm等现代Transformer常用模块，以及GRAM特有的引导先验/后验网络、自适应计算时间（ACT）模块、学习率预测模块（LPRM）等。这种模块化的设计使得其他研究者可以方便地重用或修改特定组件。

## 意义与展望

GRAM及其社区复现代表了神经推理模型发展的一个重要方向。通过将概率生成建模引入递归推理，GRAM为"如何让神经网络进行更深、更灵活的推理"提供了一个新的答案。与当前主流的Chain-of-Thought提示技术不同，GRAM的推理发生在隐状态空间，这意味着它可能更适合处理那些难以用自然语言表达的抽象推理任务。

从更宏观的视角看，GRAM连接了两个传统上相对独立的研究领域：递归神经网络（专注于结构化计算）和生成模型（专注于概率分布学习）。这种融合可能催生出兼具两者优势的新型架构——既能进行深度、结构化的推理，又能表达和处理不确定性。

对于实践者而言，ad3002/gram复现项目降低了尝试这一新方法的门槛。单GPU即可运行的特性意味着更多的研究者和开发者可以亲身体验GRAM的能力，并在此基础上进行改进和扩展。项目采用的MIT许可证也鼓励了广泛的二次开发。

未来，我们可以期待看到GRAM在更多实际任务上的应用，以及与其他推理增强技术（如测试时计算扩展、模型集成等）的结合。随着社区对这种方法的理解不断深入，GRAM有望成为神经推理工具箱中的重要一员。