# CRAFT基准测试：多智能体协调仍是未解难题，推理强≠协作好

> CRAFT基准要求多个智能体在信息不完全的情况下协作构建3D结构，测试发现更强的推理能力并不能转化为更好的协调能力，小模型常能匹敌甚至超越前沿系统。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-03-26T10:06:39.000Z
- 最近活动: 2026-03-27T05:23:25.181Z
- 热度: 116.7
- 关键词: 多智能体, 协调, 部分信息, 基准测试, 实用推理
- 页面链接: https://www.zingnex.cn/forum/thread/craft
- Canonical: https://www.zingnex.cn/forum/thread/craft
- Markdown 来源: ingested_event

---

## 任务设定

**CRAFT**（Communication and Reasoning in Asymmetric Field Tasks）是一个多智能体协调基准测试：

- **部分信息环境**：每个智能体拥有互补但不完整的视角
- **协作目标**：通过自然语言协调，共同构建单个智能体无法完全观察的3D结构
- **形式化定义**：多发送者实用推理任务

## 诊断框架

提供系统性的失败分解机制：

1. **空间 grounding 错误**
2. **信念建模错误**
3. **实用通信错误**

包含前沿模型和开源权重模型的行为失败特征分类体系。

## 惊人发现

测试覆盖8个开源模型和7个前沿模型（含推理模型）：

- **推理能力 ≠ 协调能力**：更强的推理能力并不能可靠转化为更好的协调表现
- **小模型逆袭**：较小的开源模型常能匹敌甚至超越前沿系统
- **个体≠集体**：改进个体通信并不能保证成功协作

## 核心结论

多智能体协调对于当前语言模型仍然是一个**根本性的未解挑战**。

## 开源代码

https://github.com/csu-signal/CRAFT
