章节 01
导读 / 主楼:NeuralUCB在线路由:大模型API的智能成本优化
本文提出基于NeuralUCB的在线学习路由策略,在RouterBench基准测试中实现了成本与质量的平衡,相比随机和最低成本基线显著提升效用奖励,同时相比最高质量参考大幅降低推理成本。
正文
本文提出基于NeuralUCB的在线学习路由策略,在RouterBench基准测试中实现了成本与质量的平衡,相比随机和最低成本基线显著提升效用奖励,同时相比最高质量参考大幅降低推理成本。
章节 01
本文提出基于NeuralUCB的在线学习路由策略,在RouterBench基准测试中实现了成本与质量的平衡,相比随机和最低成本基线显著提升效用奖励,同时相比最高质量参考大幅降低推理成本。
章节 02
随着大语言模型生态的繁荣,企业面临一个甜蜜的烦恼:如何在众多模型中做出最优选择?GPT-4质量最高但价格昂贵,Claude Haiku便宜但能力有限,开源模型免费却需要自建基础设施。
现有的路由方法主要分为两类,各有优劣:
监督学习方法:基于历史数据训练分类器,预测哪个模型最适合给定查询。优点是决策快速,缺点是难以适应模型更新或新任务分布。
部分反馈方法:如多臂老虎机(Multi-Armed Bandit),通过在线探索学习最优策略。优点是自适应性强,缺点是传统算法假设奖励独立同分布,难以处理复杂的查询-模型匹配关系。
章节 03
该研究提出使用NeuralUCB(Neural Upper Confidence Bound)进行LLM路由决策。NeuralUCB结合了深度神经网络的表示能力和UCB算法的探索-利用平衡,特别适合LLM路由场景。
章节 04
章节 05
NeuralUCB的核心思想是:对于每个查询,不仅预测预期奖励,还估计预测的不确定性。路由决策基于:
选择模型 = argmax(预期奖励 + 探索系数 × 不确定性)
这种"乐观面对不确定性"的策略确保系统既会利用已知的优质模型,也会探索潜力未被充分评估的选项。
章节 06
研究团队在RouterBench基准上进行评估,这是一个包含多个LLM(如GPT-4、Claude、Llama等)在多样化任务上的性能数据集。
实验设置模拟真实在线场景:
查询流:按顺序到达,算法必须立即决策
奖励反馈:选择模型后获得延迟和质量的观测值
成本模型:综合考虑API调用成本和延迟
对比基线包括:
章节 07
NeuralUCB在所有评估指标上均优于随机和最低成本基线:
章节 08
自适应能力:NeuralUCB能够根据查询复杂度动态选择模型。简单查询路由到轻量级模型,复杂查询才调用大模型。
探索效率:相比ε-贪婪等简单探索策略,UCB的置信区间引导的探索更加高效,减少了不必要的试错成本。
收敛速度:在在线设置中,NeuralUCB快速收敛到接近最优的策略,适合生产环境部署。