章节 01
R2R:大小模型协同路由实现高效推理路径探索(导读)
NeurIPS 2025论文R2R提出小模型与大模型协同的token路由机制,解决大模型推理成本高的问题,在保持推理质量的同时显著降低计算成本(如数学任务中成本降低40-60%)。
正文
介绍NeurIPS 2025论文R2R,提出小模型与大模型协同的token路由机制,在保持推理质量的同时显著降低计算成本。
章节 01
NeurIPS 2025论文R2R提出小模型与大模型协同的token路由机制,解决大模型推理成本高的问题,在保持推理质量的同时显著降低计算成本(如数学任务中成本降低40-60%)。
章节 02
大模型在复杂推理任务(思维链、多路径探索)中生成大量中间token,成本指数级增长,制约实际部署。R2R旨在平衡推理效率与质量。
章节 03
核心洞察:推理中不同token重要性不同,关键决策点需大模型,例行内容可用小模型。架构含路由策略网络(轻量分类器预测token难度)、小模型(处理简单token)、大模型(处理困难token)。策略学习采用自监督方式:用大模型黄金路径标注困难token,优化准确性与成本平衡。
章节 04
数学推理(GSM8K、MATH):保持相近准确率,降成本40-60%;代码生成(HumanEval):成本优势显著,部分场景通过率略高;消融实验证明学习策略有效,随机或固定阈值策略效果差。
章节 05
适用场景:成本敏感在线服务、边缘设备(本地小模型+云端大模型)、多租户系统(按用户偏好调整)。部署建议:用任务数据训练策略,建立监控机制追踪质量与成本。
章节 06
局限性:需大模型黄金输出,多模态推理待探索。未来方向:弱监督/RL训练策略、多模态扩展、多模型系统、全局路径优化。结语:R2R为LLM推理优化提供重要方向,智能系统设计是实用化关键。