正文

多智能体协作新发现：行为经济学游戏可预测AI团队科学任务表现

研究表明LLM在行为经济学博弈游戏中的协作特征能够可靠预测其在AI4Science多智能体团队任务中的表现，为低成本筛选协作型模型提供新工具。

多智能体系统LLM协作行为经济学AI4Science博弈论团队智能模型评估科学工作流

发布时间 2026/04/22 23:07最近活动 2026/04/23 09:51预计阅读 2 分钟

章节 01

【导读】多智能体协作新发现：行为经济学游戏可预测AI团队科学任务表现

研究表明，大语言模型（LLM）在行为经济学博弈游戏中的协作特征能够可靠预测其在AI4Science多智能体团队任务中的表现，为低成本筛选协作型模型提供了新工具。本文将从背景、方法、核心发现、实践意义等方面展开详细讨论。

章节 02

基于LLM的多智能体系统在科学发现、代码生成、复杂问题求解等场景展现超越单智能体的潜力，但成功高度依赖智能体间的有效协调。当存在共享资源约束（如GPU算力、API调用额度）时，合作与竞争的权衡成为关键——自私智能体可能局部获益却损害团队整体表现。核心问题：如何在选择模型阶段预测其多智能体协作能力？

章节 03

研究分两阶段构建评估体系：1. 行为经济学博弈评估：测试35个开源LLM参与6个经典博弈（囚徒困境、公共品博弈、信任博弈等），为每个模型构建协作特征画像；2. AI4Science多智能体任务：部署模型到数据分析、模型构建、科学报告生成等真实协作任务，评估准确性、质量、完成度三个维度。

章节 04

协作特征画像可稳健预测AI4Science任务表现，控制模型规模、基础能力等因素后仍成立；2. 具备有效协调（重复博弈维持合作）、乘性投资（协同效应团队投资）、非贪婪策略（长期团队收益优先）的模型表现更佳；3. 协作能力是独立于一般能力的可测量属性，强模型未必是好协作者。

章节 05

传统评估方法局限：端到端测试成本高、人工评估主观性强、任务特定难泛化。博弈框架优势：成本极低（单次交互少量token）、标准化（可比较复现）、泛化性强（抽象协作本质）、可解释性（对应特定合作机制）。

章节 06

团队组建：用博弈测试筛选协作特征匹配的模型；2. 模型微调：通过博弈数据微调增强协作倾向；3. 机制设计：针对性设计激励（如对自私模型设团队奖励，对过度利他模型防搭便车）。

章节 07

当前局限：1. 博弈与具体任务的映射需更细粒度分析；2. 闭源模型协作特征未覆盖；3. 静态博弈难捕捉智能体动态适应策略；4. 博弈的西方经济学背景可能存在文化偏见。未来需针对这些方向深入研究。