章节 01
CR²框架导读:移动边缘LLM推理的成本与风险平衡方案
CR²是面向移动边缘场景的成本感知风险可控LLM推理路由框架,采用两阶段设备-边缘架构(设备端边缘门控+边缘端效用选择器),结合共形风险控制校准机制,实现延迟、能耗与准确性的灵活权衡,相比基线方法可降低16.9%的部署成本。
正文
CR²是一种两阶段设备-边缘路由框架,通过边缘门控和共形风险控制校准,在无线边缘部署中实现延迟、能耗和准确性的灵活权衡,相比基线方法可降低16.9%的部署成本。
章节 01
CR²是面向移动边缘场景的成本感知风险可控LLM推理路由框架,采用两阶段设备-边缘架构(设备端边缘门控+边缘端效用选择器),结合共形风险控制校准机制,实现延迟、能耗与准确性的灵活权衡,相比基线方法可降低16.9%的部署成本。
章节 02
大语言模型的应用场景正在从云端数据中心向移动边缘扩展,但边缘环境的资源约束带来独特挑战:边缘设备计算/内存有限,无法直接运行大型模型;路由决策需平衡本地处理的质量与边缘调用的延迟能耗;现有方案多针对中心化云环境设计,未考虑无线边缘的动态特性,实际部署表现不佳。
章节 03
CR²采用两阶段设备-边缘路由架构:第一阶段为设备端轻量级边缘门控,结合用户成本权重预测本地执行的最优效用;第二阶段为边缘端效用选择器,评估路由到更强模型的收益并做最终决策。该设计实现多数简单查询的设备端快速处理,减少不必要的网络开销。
章节 04
CR²通过共形风险控制(CRC)校准机制实现显式风险控制:部署前利用验证数据选择满足目标风险水平的阈值,保证误接受风险(设备端错误接受低质量输出)控制在预设置信水平内;支持用户根据场景调整风险偏好(如医疗场景保守、实时对话场景宽松)。
章节 05
在真实边缘部署场景下,CR²在准确性-成本帕累托前沿占优:相同准确性下,归一化部署成本比最佳基线降低16.9%;边缘门控可基于设备端信号准确预测本地执行是否足够好;CRC校准的实际误接受率与目标值高度吻合,验证了风险控制的有效性。
章节 06
CR²适配实际部署需求:边缘门控轻量可运行于各类边缘设备;CRC校准仅需部署前一次完成,简化运维;支持多用户个性化成本权重设置,满足不同延迟-质量偏好;与推测解码协同,设备端小模型可同时作为门控和草稿模型,减少计算开销。
章节 07
CR²当前存在局限:依赖验证数据与部署数据的分布一致性;假设设备端与边缘端模型存在明确能力层级;动态网络状况估计仍具挑战。未来可探索在线自适应校准、复杂能力结构支持、结合网络预测模型的智能路由策略。