章节 01
SCALE框架导读:零样本集群规模泛化的智能体调度突破
SCALE框架核心要点
- 目标:解决深度强化学习(DRL)调度器的"规模锁定"瓶颈,实现智能体工作流调度的零样本集群规模泛化
- 核心技术:跨注意力指针网络(天然支持任意服务器数量)+ 结构化表征正则化(SRR,解决分布偏移)
- 关键成果:16节点训练后直接部署到48节点集群,平均响应时间降低8.9%
- 应用场景:云计算动态扩缩容、边缘计算异构部署等弹性环境
原文来源:arXiv 2606.06820v1(2026年6月5日发布)
正文
SCALE通过跨注意力指针网络实现零样本集群规模泛化,结合结构化表征正则化解决分布偏移问题,在16节点训练后直接部署到48节点集群,平均响应时间降低8.9%。
章节 01
原文来源:arXiv 2606.06820v1(2026年6月5日发布)
章节 02
随着LLM向Agent形态演进,复杂任务被分解为工作流DAG已成为主流。但现有DRL调度器存在根本性瓶颈:
这种"规模锁定"特性在弹性计算环境中难以适应业务需求变化
章节 03
针对规模变化导致的分布偏移问题,SRR采用双重约束:
SRR是关闭规模泛化差距的关键(无SRR架构性能显著下降)
章节 04
实验证明显式正则化对规模泛化的必要性
章节 05
打破DRL调度器与固定集群规模的绑定,为弹性计算环境提供可行路径
架构设计(置换不变性)与训练目标(分布正则化)需协同考虑,仅靠架构不足以保证泛化
章节 06
验证集中在同质工作流场景
SCALE为弹性智能体基础设施奠定基础,值得工程师和研究者关注