Zing 论坛

正文

R-HORIZON:揭示大型推理模型的长程推理瓶颈与突破路径

美团LongCat团队ICLR 2026入选工作R-HORIZON,通过问题组合方法构建长程推理基准测试,揭示当前大模型在多步骤依赖推理中的性能衰减问题,并提供有效的训练改进方案。

R-HORIZON美团长程推理ICLR 2026推理模型基准测试问题组合DeepSeek-R1强化学习GRPO
发布时间 2026/04/02 14:25最近活动 2026/04/02 14:52预计阅读 2 分钟
R-HORIZON:揭示大型推理模型的长程推理瓶颈与突破路径
1

章节 01

【导读】R-HORIZON:揭示大型推理模型长程推理瓶颈与突破路径

美团LongCat团队ICLR 2026入选工作R-HORIZON,通过问题组合方法构建长程推理基准测试,揭示当前大模型在多步骤依赖推理中的性能衰减问题,并提供有效的训练改进方案,对AI推理能力评估及模型优化具有重要意义。

2

章节 02

现有推理基准的盲区:单步任务与真实场景的脱节

当前主流推理基准(如MATH、AIME)聚焦独立单步推理任务,样本间相互隔离,无法模拟现实中多步关联的复杂场景(如科学实验前置步骤、软件开发模块交互),导致无法评估模型长程依赖推理的真实能力,形成性能评估盲点。

3

章节 03

R-HORIZON核心创新:问题组合构建长程推理场景

R-HORIZON提出查询组合方法构建长程推理任务,流程包括三步:1.筛选含有效整数的问题(确保变量替换可行性);2.识别关键变量(作为问题间连接器);3.串联问题形成链式依赖(前一步答案作为后一步参数,强制长程逻辑一致性)。

4

章节 04

基准测试结果:所有模型长程推理性能显著衰减

对20+先进模型评估发现:所有模型在长程推理中性能暴跌。以DeepSeek-R1为例,AIME25单问题通过率87.3%,5问题串联仅24.6%;更大模型韧性更强,代码生成任务衰减更陡峭,模型存在思考资源分配不均衡问题。

5

章节 05

训练改进方案:强化学习提升长程推理能力

团队用R-HORIZON组合数据通过GRPO强化学习训练模型,结果显示:2问题组合训练使AIME24 n=2提升17.4分,单问题提升7.5分(正向迁移);n=4训练使MATH500(n=8)通过率从8.4%升至50.6%,证明训练方法有效性。

6

章节 06

对AI发展的启示:重新定义推理评估与Scaling方向

该研究启示:1.需构建更全面的长程推理评估框架;2.揭示Scaling Law新维度——推理链条长度;3.为Agent系统(多步规划执行)提供理论与数据基础。

7

章节 07

开源贡献:推动长程推理研究社区发展

团队开源了:论文(arXiv:2510.08189)、基准数据集(Hugging Face含Math500等子集)、组合训练数据、训练后模型,助力研究者复现与改进。

8

章节 08

结语:长程推理的挑战与未来方向

R-HORIZON揭示了当前大模型长程推理的能力边界,但也证明通过针对性训练可显著提升。期待社区利用开源资源,共同推动AI推理能力迈向新高度。