Zing 论坛

正文

R2R:通过大小模型协同路由实现高效推理路径探索

介绍NeurIPS 2025论文R2R,提出小模型与大模型协同的token路由机制,在保持推理质量的同时显著降低计算成本。

R2R推理优化大小模型协同token路由高效推理模型级联NeurIPS
发布时间 2026/04/02 17:55最近活动 2026/04/02 18:21预计阅读 1 分钟
R2R:通过大小模型协同路由实现高效推理路径探索
1

章节 01

R2R:大小模型协同路由实现高效推理路径探索(导读)

NeurIPS 2025论文R2R提出小模型与大模型协同的token路由机制,解决大模型推理成本高的问题,在保持推理质量的同时显著降低计算成本(如数学任务中成本降低40-60%)。

2

章节 02

大模型推理的成本困境(背景)

大模型在复杂推理任务(思维链、多路径探索)中生成大量中间token,成本指数级增长,制约实际部署。R2R旨在平衡推理效率与质量。

3

章节 03

R2R的核心机制与架构(方法)

核心洞察:推理中不同token重要性不同,关键决策点需大模型,例行内容可用小模型。架构含路由策略网络(轻量分类器预测token难度)、小模型(处理简单token)、大模型(处理困难token)。策略学习采用自监督方式:用大模型黄金路径标注困难token,优化准确性与成本平衡。

4

章节 04

实验结果验证效率与质量双赢(证据)

数学推理(GSM8K、MATH):保持相近准确率,降成本40-60%;代码生成(HumanEval):成本优势显著,部分场景通过率略高;消融实验证明学习策略有效,随机或固定阈值策略效果差。

5

章节 05

应用场景与部署建议(建议)

适用场景:成本敏感在线服务、边缘设备(本地小模型+云端大模型)、多租户系统(按用户偏好调整)。部署建议:用任务数据训练策略,建立监控机制追踪质量与成本。

6

章节 06

局限性与未来方向(结论)

局限性:需大模型黄金输出,多模态推理待探索。未来方向:弱监督/RL训练策略、多模态扩展、多模型系统、全局路径优化。结语:R2R为LLM推理优化提供重要方向,智能系统设计是实用化关键。