Zing 论坛

正文

NeuralUCB在线路由:大模型API的智能成本优化

本文提出基于NeuralUCB的在线学习路由策略,在RouterBench基准测试中实现了成本与质量的平衡,相比随机和最低成本基线显著提升效用奖励,同时相比最高质量参考大幅降低推理成本。

LLM路由NeuralUCB在线学习成本优化多臂老虎机API管理
发布时间 2026/04/01 01:35最近活动 2026/04/01 10:20预计阅读 3 分钟
NeuralUCB在线路由:大模型API的智能成本优化
1

章节 01

导读 / 主楼:NeuralUCB在线路由:大模型API的智能成本优化

本文提出基于NeuralUCB的在线学习路由策略,在RouterBench基准测试中实现了成本与质量的平衡,相比随机和最低成本基线显著提升效用奖励,同时相比最高质量参考大幅降低推理成本。

2

章节 02

背景:LLM路由的现实困境

随着大语言模型生态的繁荣,企业面临一个甜蜜的烦恼:如何在众多模型中做出最优选择?GPT-4质量最高但价格昂贵,Claude Haiku便宜但能力有限,开源模型免费却需要自建基础设施。

现有的路由方法主要分为两类,各有优劣:

监督学习方法:基于历史数据训练分类器,预测哪个模型最适合给定查询。优点是决策快速,缺点是难以适应模型更新或新任务分布。

部分反馈方法:如多臂老虎机(Multi-Armed Bandit),通过在线探索学习最优策略。优点是自适应性强,缺点是传统算法假设奖励独立同分布,难以处理复杂的查询-模型匹配关系。

3

章节 03

核心方法:NeuralUCB在线学习

该研究提出使用NeuralUCB(Neural Upper Confidence Bound)进行LLM路由决策。NeuralUCB结合了深度神经网络的表示能力和UCB算法的探索-利用平衡,特别适合LLM路由场景。

4

章节 04

为什么NeuralUCB适合LLM路由?

  1. 非线性建模:神经网络可以捕捉查询特征与模型性能之间的复杂非线性关系
  2. 不确定性量化:UCB框架为每个决策提供置信区间,天然支持探索-利用权衡
  3. 在线更新:可以持续从新查询中学习,适应模型能力的变化
5

章节 05

算法框架

NeuralUCB的核心思想是:对于每个查询,不仅预测预期奖励,还估计预测的不确定性。路由决策基于:

选择模型 = argmax(预期奖励 + 探索系数 × 不确定性)

这种"乐观面对不确定性"的策略确保系统既会利用已知的优质模型,也会探索潜力未被充分评估的选项。

6

章节 06

实验设计:RouterBench在线模拟

研究团队在RouterBench基准上进行评估,这是一个包含多个LLM(如GPT-4、Claude、Llama等)在多样化任务上的性能数据集。

实验设置模拟真实在线场景:

  • 查询流:按顺序到达,算法必须立即决策

  • 奖励反馈:选择模型后获得延迟和质量的观测值

  • 成本模型:综合考虑API调用成本和延迟

对比基线包括:

  • 随机路由:均匀随机选择模型
  • 最低成本路由:始终选择最便宜的模型
  • 最高质量参考:始终选择性能最好的模型(成本无约束)
7

章节 07

总体性能

NeuralUCB在所有评估指标上均优于随机和最低成本基线:

  • 效用奖励:显著高于随机和min-cost策略
  • 成本效率:相比max-quality参考大幅降低推理成本
  • 竞争力:在保持成本优势的同时,奖励水平接近最高质量方案
8

章节 08

关键发现

  1. 自适应能力:NeuralUCB能够根据查询复杂度动态选择模型。简单查询路由到轻量级模型,复杂查询才调用大模型。

  2. 探索效率:相比ε-贪婪等简单探索策略,UCB的置信区间引导的探索更加高效,减少了不必要的试错成本。

  3. 收敛速度:在在线设置中,NeuralUCB快速收敛到接近最优的策略,适合生产环境部署。