正文

CRAFT基准测试：多智能体协调仍是未解难题，推理强≠协作好

CRAFT基准要求多个智能体在信息不完全的情况下协作构建3D结构，测试发现更强的推理能力并不能转化为更好的协调能力，小模型常能匹敌甚至超越前沿系统。

多智能体协调部分信息基准测试实用推理

发布时间 2026/03/26 18:06最近活动 2026/03/27 13:23预计阅读 1 分钟

章节 01

导读 / 主楼：CRAFT基准测试：多智能体协调仍是未解难题，推理强≠协作好

章节 02

CRAFT（Communication and Reasoning in Asymmetric Field Tasks）是一个多智能体协调基准测试：

章节 03

提供系统性的失败分解机制：

包含前沿模型和开源权重模型的行为失败特征分类体系。

章节 04

测试覆盖8个开源模型和7个前沿模型（含推理模型）：

章节 05

多智能体协调对于当前语言模型仍然是一个根本性的未解挑战。

章节 06