Zing 论坛

正文

CRAFT基准测试:多智能体协调仍是未解难题,推理强≠协作好

CRAFT基准要求多个智能体在信息不完全的情况下协作构建3D结构,测试发现更强的推理能力并不能转化为更好的协调能力,小模型常能匹敌甚至超越前沿系统。

多智能体协调部分信息基准测试实用推理
发布时间 2026/03/26 18:06最近活动 2026/03/27 13:23预计阅读 1 分钟
CRAFT基准测试:多智能体协调仍是未解难题,推理强≠协作好
1

章节 01

导读 / 主楼:CRAFT基准测试:多智能体协调仍是未解难题,推理强≠协作好

CRAFT基准要求多个智能体在信息不完全的情况下协作构建3D结构,测试发现更强的推理能力并不能转化为更好的协调能力,小模型常能匹敌甚至超越前沿系统。

2

章节 02

任务设定

CRAFT(Communication and Reasoning in Asymmetric Field Tasks)是一个多智能体协调基准测试:

  • 部分信息环境:每个智能体拥有互补但不完整的视角
  • 协作目标:通过自然语言协调,共同构建单个智能体无法完全观察的3D结构
  • 形式化定义:多发送者实用推理任务
3

章节 03

诊断框架

提供系统性的失败分解机制:

  1. 空间 grounding 错误
  2. 信念建模错误
  3. 实用通信错误

包含前沿模型和开源权重模型的行为失败特征分类体系。

4

章节 04

惊人发现

测试覆盖8个开源模型和7个前沿模型(含推理模型):

  • 推理能力 ≠ 协调能力:更强的推理能力并不能可靠转化为更好的协调表现
  • 小模型逆袭:较小的开源模型常能匹敌甚至超越前沿系统
  • 个体≠集体:改进个体通信并不能保证成功协作
5

章节 05

核心结论

多智能体协调对于当前语言模型仍然是一个根本性的未解挑战