正文

AgentFloor：小型开源模型在工具使用能力阶梯上能走多远？

AgentFloor是一个六层能力阶梯的确定性基准测试，评估16个开源模型（0.27B-32B）和GPT-5在代理工作流中的表现。研究发现小型和中等规模开源模型已足以处理大部分短视域结构化工具使用任务，而长视域规划仍是前沿模型的优势领域。

代理系统工具使用模型评估开源模型GPT-5分层路由AI成本优化长视域规划

发布时间 2026/05/01 09:25最近活动 2026/05/04 10:55预计阅读 2 分钟

章节 01

AgentFloor基准测试核心发现：小型开源模型可处理多数工具使用任务，长视域规划仍需前沿模型

AgentFloor是一个六层能力阶梯的确定性基准测试，评估16个开源模型（0.27B-32B）和GPT-5在代理工作流中的表现。核心发现：小型和中等规模开源模型已足以处理大部分短视域结构化工具使用任务；最强开源模型（32B参数）在聚合评估中匹敌GPT-5且成本更低；长视域规划仍是前沿模型的优势领域，即使GPT-5也未达强可靠性。研究建议采用分层路由策略优化代理系统成本。

章节 02

代理系统的成本困境：为何需要AgentFloor基准测试

生产级代理系统通过多步骤工具调用提供自动化服务，但频繁使用大型前沿模型（如GPT-5）会导致成本失控。多数调用是短小、结构化的例行任务（如检查日历、格式化输出），引出关键问题：哪些任务需大型模型，哪些可由小型模型处理？AgentFloor基准测试为此设计。

章节 03

AgentFloor基准测试设计：六层能力阶梯与评估方法

AgentFloor包含30个确定性任务，分为六层能力阶梯：1.指令遵循（基础指令执行）；2.基础工具使用（单工具调用）；3.参数化工具调用（动态构造参数）；4.多工具协调（多工具协同）；5.多步骤规划（复杂目标计划）；6.长视域约束规划（长时间跨度计划）。采用确定性评估（明确答案），评估16个开源模型和GPT-5，共16542次评分运行。

章节 04

核心发现：小型模型表现与长视域规划的鸿沟

小型模型（0.27B-7B）在底层任务（1-4层）表现可靠；32B开源模型匹敌GPT-5且成本更低、速度更快；但第六层长视域规划任务中，前沿模型（如GPT-5）仍占优势，需维持状态、跟踪约束、动态调整，即使GPT-5也未达强可靠性。

章节 05

模型规模与能力：非线性关系及干预效果差异

能力边界非仅由规模决定，架构、训练数据、优化目标影响能力；干预措施（Chain-of-Thought提示、Few-shot示例、工具描述优化）效果因模型而异，无“一刀切”策略。

章节 06

代理系统设计启示：分层路由策略与成本优化

建议分层路由：小型模型处理1-4层任务，中型模型处理5层，前沿模型处理6层；架构含路由器、快速/标准/深度路径、降级机制；成本可降至全用GPT-5的20-30%，成功率相当或更高。

章节 07

局限、未来方向与开源生态意义

局限：任务范围限于工具使用、静态评估、模型覆盖有限；未来方向：动态路由学习、多模型协作、能力预测；开源意义：提供基准测试资源，促进AI民主化，开源模型可与商业模型竞争。

AgentFloor：小型开源模型在工具使用能力阶梯上能走多远？

AgentFloor基准测试核心发现：小型开源模型可处理多数工具使用任务，长视域规划仍需前沿模型

代理系统的成本困境：为何需要AgentFloor基准测试

AgentFloor基准测试设计：六层能力阶梯与评估方法

核心发现：小型模型表现与长视域规划的鸿沟

模型规模与能力：非线性关系及干预效果差异

代理系统设计启示：分层路由策略与成本优化

局限、未来方向与开源生态意义

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

从零构建现代LLM：一个教学级的Llama风格语言模型实现