正文

R2R：通过大小模型协同路由实现高效推理路径探索

介绍NeurIPS 2025论文R2R，提出小模型与大模型协同的token路由机制，在保持推理质量的同时显著降低计算成本。

R2R推理优化大小模型协同token路由高效推理模型级联NeurIPS

发布时间 2026/04/02 17:55最近活动 2026/04/02 18:21预计阅读 1 分钟

章节 01

R2R：大小模型协同路由实现高效推理路径探索（导读）

NeurIPS 2025论文R2R提出小模型与大模型协同的token路由机制，解决大模型推理成本高的问题，在保持推理质量的同时显著降低计算成本（如数学任务中成本降低40-60%）。

章节 02

大模型在复杂推理任务（思维链、多路径探索）中生成大量中间token，成本指数级增长，制约实际部署。R2R旨在平衡推理效率与质量。

章节 03

核心洞察：推理中不同token重要性不同，关键决策点需大模型，例行内容可用小模型。架构含路由策略网络（轻量分类器预测token难度）、小模型（处理简单token）、大模型（处理困难token）。策略学习采用自监督方式：用大模型黄金路径标注困难token，优化准确性与成本平衡。

章节 04

数学推理（GSM8K、MATH）：保持相近准确率，降成本40-60%；代码生成（HumanEval）：成本优势显著，部分场景通过率略高；消融实验证明学习策略有效，随机或固定阈值策略效果差。

章节 05

适用场景：成本敏感在线服务、边缘设备（本地小模型+云端大模型）、多租户系统（按用户偏好调整）。部署建议：用任务数据训练策略，建立监控机制追踪质量与成本。

章节 06

局限性：需大模型黄金输出，多模态推理待探索。未来方向：弱监督/RL训练策略、多模态扩展、多模型系统、全局路径优化。结语：R2R为LLM推理优化提供重要方向，智能系统设计是实用化关键。