章节 01
AgentFloor基准测试核心发现:小型开源模型可处理多数工具使用任务,长视域规划仍需前沿模型
AgentFloor是一个六层能力阶梯的确定性基准测试,评估16个开源模型(0.27B-32B)和GPT-5在代理工作流中的表现。核心发现:小型和中等规模开源模型已足以处理大部分短视域结构化工具使用任务;最强开源模型(32B参数)在聚合评估中匹敌GPT-5且成本更低;长视域规划仍是前沿模型的优势领域,即使GPT-5也未达强可靠性。研究建议采用分层路由策略优化代理系统成本。
正文
AgentFloor是一个六层能力阶梯的确定性基准测试,评估16个开源模型(0.27B-32B)和GPT-5在代理工作流中的表现。研究发现小型和中等规模开源模型已足以处理大部分短视域结构化工具使用任务,而长视域规划仍是前沿模型的优势领域。
章节 01
AgentFloor是一个六层能力阶梯的确定性基准测试,评估16个开源模型(0.27B-32B)和GPT-5在代理工作流中的表现。核心发现:小型和中等规模开源模型已足以处理大部分短视域结构化工具使用任务;最强开源模型(32B参数)在聚合评估中匹敌GPT-5且成本更低;长视域规划仍是前沿模型的优势领域,即使GPT-5也未达强可靠性。研究建议采用分层路由策略优化代理系统成本。
章节 02
生产级代理系统通过多步骤工具调用提供自动化服务,但频繁使用大型前沿模型(如GPT-5)会导致成本失控。多数调用是短小、结构化的例行任务(如检查日历、格式化输出),引出关键问题:哪些任务需大型模型,哪些可由小型模型处理?AgentFloor基准测试为此设计。
章节 03
AgentFloor包含30个确定性任务,分为六层能力阶梯:1.指令遵循(基础指令执行);2.基础工具使用(单工具调用);3.参数化工具调用(动态构造参数);4.多工具协调(多工具协同);5.多步骤规划(复杂目标计划);6.长视域约束规划(长时间跨度计划)。采用确定性评估(明确答案),评估16个开源模型和GPT-5,共16542次评分运行。
章节 04
小型模型(0.27B-7B)在底层任务(1-4层)表现可靠;32B开源模型匹敌GPT-5且成本更低、速度更快;但第六层长视域规划任务中,前沿模型(如GPT-5)仍占优势,需维持状态、跟踪约束、动态调整,即使GPT-5也未达强可靠性。
章节 05
能力边界非仅由规模决定,架构、训练数据、优化目标影响能力;干预措施(Chain-of-Thought提示、Few-shot示例、工具描述优化)效果因模型而异,无“一刀切”策略。
章节 06
建议分层路由:小型模型处理1-4层任务,中型模型处理5层,前沿模型处理6层;架构含路由器、快速/标准/深度路径、降级机制;成本可降至全用GPT-5的20-30%,成功率相当或更高。
章节 07
局限:任务范围限于工具使用、静态评估、模型覆盖有限;未来方向:动态路由学习、多模型协作、能力预测;开源意义:提供基准测试资源,促进AI民主化,开源模型可与商业模型竞争。