章节 01
【导读】R-HORIZON:揭示大型推理模型长程推理瓶颈与突破路径
美团LongCat团队ICLR 2026入选工作R-HORIZON,通过问题组合方法构建长程推理基准测试,揭示当前大模型在多步骤依赖推理中的性能衰减问题,并提供有效的训练改进方案,对AI推理能力评估及模型优化具有重要意义。
正文
美团LongCat团队ICLR 2026入选工作R-HORIZON,通过问题组合方法构建长程推理基准测试,揭示当前大模型在多步骤依赖推理中的性能衰减问题,并提供有效的训练改进方案。
章节 01
美团LongCat团队ICLR 2026入选工作R-HORIZON,通过问题组合方法构建长程推理基准测试,揭示当前大模型在多步骤依赖推理中的性能衰减问题,并提供有效的训练改进方案,对AI推理能力评估及模型优化具有重要意义。
章节 02
当前主流推理基准(如MATH、AIME)聚焦独立单步推理任务,样本间相互隔离,无法模拟现实中多步关联的复杂场景(如科学实验前置步骤、软件开发模块交互),导致无法评估模型长程依赖推理的真实能力,形成性能评估盲点。
章节 03
R-HORIZON提出查询组合方法构建长程推理任务,流程包括三步:1.筛选含有效整数的问题(确保变量替换可行性);2.识别关键变量(作为问题间连接器);3.串联问题形成链式依赖(前一步答案作为后一步参数,强制长程逻辑一致性)。
章节 04
对20+先进模型评估发现:所有模型在长程推理中性能暴跌。以DeepSeek-R1为例,AIME25单问题通过率87.3%,5问题串联仅24.6%;更大模型韧性更强,代码生成任务衰减更陡峭,模型存在思考资源分配不均衡问题。
章节 05
团队用R-HORIZON组合数据通过GRPO强化学习训练模型,结果显示:2问题组合训练使AIME24 n=2提升17.4分,单问题提升7.5分(正向迁移);n=4训练使MATH500(n=8)通过率从8.4%升至50.6%,证明训练方法有效性。
章节 06
该研究启示:1.需构建更全面的长程推理评估框架;2.揭示Scaling Law新维度——推理链条长度;3.为Agent系统(多步规划执行)提供理论与数据基础。
章节 07
团队开源了:论文(arXiv:2510.08189)、基准数据集(Hugging Face含Math500等子集)、组合训练数据、训练后模型,助力研究者复现与改进。
章节 08
R-HORIZON揭示了当前大模型长程推理的能力边界,但也证明通过针对性训练可显著提升。期待社区利用开源资源,共同推动AI推理能力迈向新高度。