# R-HORIZON：揭示大型推理模型的长程推理瓶颈与突破路径

> 美团LongCat团队ICLR 2026入选工作R-HORIZON，通过问题组合方法构建长程推理基准测试，揭示当前大模型在多步骤依赖推理中的性能衰减问题，并提供有效的训练改进方案。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-02T06:25:37.000Z
- 最近活动: 2026-04-02T06:52:22.736Z
- 热度: 163.6
- 关键词: R-HORIZON, 美团, 长程推理, ICLR 2026, 推理模型, 基准测试, 问题组合, DeepSeek-R1, 强化学习, GRPO
- 页面链接: https://www.zingnex.cn/forum/thread/r-horizon
- Canonical: https://www.zingnex.cn/forum/thread/r-horizon
- Markdown 来源: ingested_event

---

# R-HORIZON：揭示大型推理模型的长程推理瓶颈与突破路径

随着OpenAI o1、DeepSeek-R1等推理专用大模型的崛起，测试时扩展和长思维链（Chain-of-Thought）技术已经展现出惊人的潜力。然而，这些模型在面对需要多步骤、长程依赖的复杂推理任务时，表现究竟如何？美团LongCat团队的最新研究**R-HORIZON**（入选ICLR 2026）给出了令人深思的答案。

## 现有基准测试的盲区

当前的主流推理基准测试存在一个根本性局限：**它们主要关注独立的、单步推理任务**。无论是MATH、AIME还是其他数学竞赛数据集，测试样本之间都是相互隔离的，模型只需解决一个孤立的问题即可。

这种测试范式与真实世界的复杂场景存在巨大差距。现实中的推理任务往往是相互关联的：解决一个问题可能需要先解决另一个问题，或者多个问题的解答之间存在依赖关系。例如，在科学研究中，验证一个假设可能需要先完成一系列前置实验；在软件开发中，修复一个bug可能需要先理解多个相关模块的交互逻辑。

现有基准测试无法评估模型在这些长程、多步推理场景下的真实能力，这导致了一个危险的盲点：我们以为模型具备了强大的推理能力，但实际上它们可能只是在"背答案"，一旦面对需要持续保持上下文和逻辑一致性的长程任务，性能就会急剧下降。

## R-HORIZON的核心创新：问题组合方法

R-HORIZON提出了一种简单而有效的方法来解决上述问题：**查询组合（Query Composition）**。其核心思想是将原本独立的多个问题串联起来，构建成复杂的多步推理场景。

具体来说，R-HORIZON的数据构建流程包括三个关键步骤：

### 第一步：筛选含有效整数的问题

首先，从原始数据集中筛选出包含有效整数的问题，确保目标答案是纯整数形式，排除浮点数、分数或LaTeX命令等模糊数值表达式。这一步保证了后续变量替换的可行性。

### 第二步：识别关键变量

对于每个筛选后的问题，使用大模型识别出"关键变量"——即那些对问题结果有显著影响的核心整数。这些变量将作为问题之间的"连接器"。

### 第三步：组合成链式推理问题

最后，将多个问题串联起来，形成链式推理任务。每个步骤的关键变量依赖于前一步骤的答案。例如，问题A的答案是42，那么问题B的某个关键参数就被设置为42，模型必须正确解决问题A才能得到解决问题B所需的信息。

这种组合方式创造了一种**强制性的长程依赖**：模型必须保持整个推理链条的正确性，任何一个环节出错都会导致最终答案错误。这正是真实世界复杂推理任务的典型特征。

## 令人震惊的基准测试结果

R-HORIZON团队构建了一个包含6个代表性数据集的基准测试，涵盖数学、代码生成和智能体应用场景。他们对20多个最先进的大型推理模型进行了评估，结果揭示了一个普遍而严重的问题：

**所有模型在长程推理任务中都出现了显著的性能衰减。**

以DeepSeek-R1为例，这款在推理领域表现卓越的模型，在AIME25数据集上：
- 单问题（n=1）通过率：**87.3%**
- 5个问题串联（n=5）通过率：**24.6%**

这意味着当推理链条延长时，即使是顶级模型的性能也暴跌了超过60个百分点。

更有趣的发现包括：

### 模型规模的影响

更大的模型展现出更强的长程推理韧性。R1-Qwen-7B在解决16个串联问题时性能从93.6%降至0%，降幅比32B参数模型高出34.1%。这表明模型容量对于维持长程推理的一致性至关重要。

### 任务类型的差异

代码生成任务比数学问题表现出更陡峭的性能下降曲线。许多推理模型在多步网页搜索场景中甚至丧失了工具调用能力，导致性能惨不忍睹。这说明当前模型的工具使用能力在面对复杂依赖关系时非常脆弱。

### 思考预算分配问题

研究还发现，现有的大型推理模型无法合理分配思考资源。它们往往在单个问题上"过度思考"，而在需要维持长程一致性的环节却"思考不足"。这种资源分配的不均衡进一步加剧了性能衰减。

## 训练改进：从问题到解决方案

发现问题只是第一步，R-HORIZON团队进一步证明了通过针对性的训练可以显著改善模型的长程推理能力。

他们使用R-HORIZON构建的组合数据对模型进行强化学习训练（采用GRPO算法），结果令人振奋：

### 双重性能提升

使用2个问题组合的数据进行训练，不仅显著提升了多步推理能力（AIME24 n=2提升17.4分），还意外地改善了单问题性能（AIME24原始提升7.5分）。这表明长程推理训练具有正向迁移效应，能够帮助模型学习更深层次的推理模式。

### 可扩展的复杂度

增加组合复杂度（n=4）能够增强模型处理需要更多推理步骤的问题的能力。在MATH500（n=8）上，经过n=4组合训练的模型达到了50.6%的通过率，而基线模型仅为8.4%。

这些结果清晰地表明：**当前大型推理模型的长程推理能力远未达到天花板，通过适当的训练数据和方法，还有巨大的提升空间。**

## 对AI发展的深远启示

R-HORIZON的研究成果对整个AI领域具有多重重要意义：

### 重新定义推理能力评估

这项研究提醒我们，不能仅仅依赖传统的单问题基准测试来评估模型的推理能力。我们需要更全面的评估框架，能够测试模型在复杂、多步、长程依赖场景下的表现。R-HORIZON提供的基准测试和数据集正是朝这个方向迈出的重要一步。

### 揭示Scaling Law的新维度

传统的Scaling Law主要关注模型参数规模、训练数据量和计算资源。R-HORIZON揭示了一个新的维度：**推理链条长度**。随着模型应用场景越来越复杂，如何保持长程推理的一致性和正确性将成为关键的 Scaling 方向。

### 为Agent系统提供基础

真正的智能体（Agent）系统需要能够在复杂环境中进行多步规划、执行和反思。R-HORIZON的研究为构建这样的系统提供了重要的理论基础和数据支持。只有具备可靠的长程推理能力，AI Agent才能在现实世界中完成复杂的任务序列。

## 开源贡献与社区影响

R-HORIZON团队以开放的态度分享了他们的研究成果：

- **论文**：已发布在arXiv（arXiv:2510.08189）
- **基准数据集**：已在Hugging Face开源，包括R-HORIZON-Math500、AIME24、AIME25、AMC23和Websearch等多个子集
- **训练数据**：完整的组合训练数据集已开源，支持研究者复现和改进
- **模型**：基于R-HORIZON数据训练的模型也已发布

这种全面的开源策略将极大促进相关领域的研究进展，帮助更多研究者进入长程推理这一重要但此前被忽视的研究方向。

## 结语

R-HORIZON的研究像一面镜子，照出了当前大型推理模型的真实能力边界。它告诉我们，尽管AI在单步推理任务上表现出色，但在模拟人类复杂思维过程的长程推理方面，我们还有很长的路要走。

与此同时，这项研究也指明了前进的方向：通过精心设计的训练数据和方法，我们可以显著提升模型的长程推理能力。这不仅是一个技术问题，更是一个关于如何构建真正智能系统的根本性问题。

随着R-HORIZON基准测试和训练数据的开源，我们期待看到更多研究者加入这一领域，共同推动AI推理能力迈向新的高度。