# MASPO：多智能体系统提示词联合优化的新框架

> 多智能体系统的性能高度依赖角色提示词质量，但跨智能体联合优化面临局部目标与全局目标错位的挑战。MASPO通过联合评估机制和数据驱动的进化束搜索，在6项任务上平均提升2.9个百分点，被ICML 2026接收。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-07T17:35:26.000Z
- 最近活动: 2026-05-09T16:53:47.500Z
- 热度: 101.7
- 关键词: 多智能体系统, 提示词优化, 大语言模型, MAS, 进化算法, 联合优化, ICML 2026
- 页面链接: https://www.zingnex.cn/forum/thread/maspo
- Canonical: https://www.zingnex.cn/forum/thread/maspo
- Markdown 来源: ingested_event

---

## 多智能体系统的崛起与挑战\n\n基于大型语言模型的多智能体系统（LLM-based Multi-Agent Systems, MAS）正在成为解决复杂协作任务的有力工具。从软件开发到科学研究，从创意写作到决策支持，多个专业化智能体通过分工协作，能够完成单一模型难以应对的复杂任务。\n\n### 提示词：多智能体系统的"灵魂"\n\n在多智能体架构中，每个智能体通常通过角色特定的提示词（role-specific prompts）进行编排。这些提示词定义了智能体的身份、能力、行为准则和与其他智能体的交互方式。提示词的质量直接决定了：\n\n- **智能体的专业性**：是否能准确理解并执行其角色职责\n- **协作的流畅性**：智能体之间能否有效沟通和协调\n- **系统的整体性能**：最终任务完成的质量和效率\n\n### 联合优化的困境\n\n尽管提示词至关重要，但跨多个智能体联合优化提示词面临根本性挑战：\n\n**局部与全局的错位**：单个智能体的提示词优化可能提升其局部表现，却损害整体系统性能。例如，一个过于"强势"的智能体可能主导对话，压制其他智能体的贡献。\n\n**高维搜索空间**：随着智能体数量增加，提示词组合空间呈指数级膨胀。手动调优变得不切实际，而传统自动优化方法难以应对这种高维离散空间。\n\n**评估困难**：多智能体系统的输出往往是开放式的，缺乏明确的 ground-truth 标签，使得优化方向的确定变得困难。\n\n## MASPO：联合提示词优化框架\n\n针对上述挑战，研究者提出了MASPO（Multi-Agent System Prompt Optimization），一个专为多智能体系统设计的自动提示词优化框架。\n\n### 核心创新：联合评估机制\n\nMASPO的核心创新在于其联合评估机制。与传统方法仅评估单个智能体提示词的局部有效性不同，MASPO评估提示词的标准是：\n\n> **该提示词能否促进下游智能体的成功？**\n\n这一机制有效弥合了局部交互与全局结果之间的鸿沟。具体来说，当评估智能体A的提示词时，MASPO不仅看A的表现，更关注A的输出如何影响智能体B、C等后续智能体的表现。这种"下游成功"指标无需 ground-truth 标签，完全基于实际执行结果，天然适用于开放式任务。\n\n### 优化算法：数据驱动的进化束搜索\n\n面对高维提示词空间，MASPO采用数据驱动的进化束搜索（evolutionary beam search）策略：\n\n**1. 种群初始化**\n\n从当前提示词出发，通过变异操作生成多样化的候选提示词种群。每个候选代表一个可能的提示词版本。\n\n**2. 联合评估与选择**\n\n对每个候选进行联合评估，计算其下游成功指标。保留得分最高的前k个候选（束宽），形成下一代的父代。\n\n**3. 迭代进化**\n\n重复变异、评估、选择的过程，逐步提升提示词质量。进化过程利用了多智能体系统的实际执行数据，使优化方向与实际性能紧密对齐。\n\n**4. 跨智能体协同**\n\nMASPO不是孤立地优化每个智能体的提示词，而是在优化过程中考虑智能体间的相互影响。当优化智能体A的提示词时，系统会固定其他智能词的当前最佳版本，确保评估的公平性和一致性。\n\n## 实验验证：六项多样化任务\n\n研究团队在六个具有代表性的任务上验证了MASPO的有效性，涵盖不同类型的多智能体协作场景：\n\n### 任务概览\n\n实验任务包括：\n- **协作推理任务**：需要多个智能体共同推理解决复杂问题\n- **角色扮演对话**：不同角色的智能体进行自然、连贯的多轮对话\n- **代码生成与审查**：智能体分别负责代码编写、审查、优化\n- **创意写作协作**：多个智能体协作完成故事创作\n- **信息检索与综合**：智能体分工搜索、筛选、整合信息\n- **决策支持系统**：多智能体从不同角度分析并提供决策建议\n\n### 主要结果\n\nMASPO在所有六项任务上均取得优异表现：\n\n- **平均准确率提升**：相比最先进的提示词优化方法，MASPO平均提升2.9个百分点\n- **一致性强**：在所有任务上均优于基线，没有出现性能退化的情况\n- **收敛速度快**：进化束搜索在合理迭代次数内收敛到高质量解\n\n### 与基线的对比\n\n实验对比了多种提示词优化方法：\n\n**单智能体优化方法**：如OPRO、PromptBreeder等，这些方法独立优化每个智能体的提示词，忽视了智能体间的相互影响，在多智能体场景下表现不佳。\n\n**手动调优**：即使是有经验的研究者手动设计的提示词，也难以达到MASPO自动优化的效果，凸显了自动优化的价值。\n\n**朴素联合优化**：简单地将所有智能体提示词一起优化，而不考虑联合评估，容易陷入局部最优，效果不如MASPO。\n\n## 关键发现与洞见\n\n### 下游成功指标的有效性\n\n实验验证了下游成功作为优化指标的合理性。相比仅关注单个智能体输出的表面质量，关注其对后续智能体的帮助程度，能够更好地捕捉多智能体系统的本质需求。\n\n### 进化搜索在高维空间的优势\n\n进化束搜索在处理高维离散提示词空间时展现出独特优势。与梯度下降等连续优化方法不同，进化搜索天然适合处理离散的文本空间，且不易陷入局部最优。\n\n### 提示词间的相互依赖\n\n实验揭示了多智能体系统中提示词间的复杂依赖关系。一个智能体的提示词调整可能对其他智能体产生连锁反应，这种相互依赖性正是联合优化必要性的根源。\n\n## 技术细节深入\n\n### 变异策略设计\n\nMASPO采用多种变异操作来探索提示词空间：\n- **指令重述**：用不同方式表达相同指令\n- **角色细节调整**：增加或修改角色描述的细节\n- **示例增删**：添加或删除 few-shot 示例\n- **格式调整**：改变输出格式要求\n\n### 评估效率优化\n\n为了降低评估成本，MASPO实现了多种优化：\n- **缓存机制**：缓存重复执行的评估结果\n- **早停策略**：对明显低质量的候选提前终止评估\n- **并行执行**：利用多智能体系统的并行性加速评估\n\n### 超参数鲁棒性\n\n实验表明MASPO对关键超参数（如束宽、变异率）具有一定的鲁棒性，在不同设置下都能取得较好效果，降低了实际应用的调参负担。\n\n## 局限与未来方向\n\n### 计算开销\n\nMASPO的进化搜索需要多次执行多智能体系统，计算开销较大。未来可以探索更高效的评估策略，如使用代理模型预测提示词质量，减少实际执行次数。\n\n### 动态环境适应\n\n当前MASPO针对静态任务优化。在动态变化的环境中，提示词需要持续调整。探索在线学习或持续优化版本是重要方向。\n\n### 可解释性提升\n\n虽然MASPO能够找到高质量提示词，但对"为什么这些提示词更好"的解释能力有限。增强可解释性有助于用户理解和信任优化结果。\n\n### 跨任务迁移\n\n实验任务相对独立。研究MASPO学习到的优化策略能否跨任务迁移，实现更高效的少样本优化，具有重要价值。\n\n## 实际应用价值\n\nMASPO的研究成果对构建实用的多智能体系统具有重要意义：\n\n**降低开发门槛**：自动优化减少了对提示词工程专家经验的依赖，使更多开发者能够构建高质量的多智能体应用。\n\n**提升系统性能**：相比手动调优，MASPO能够发现人类难以想到的提示词组合，释放多智能体系统的潜力。\n\n**加速迭代周期**：自动优化大幅缩短了提示词调优的迭代周期，支持快速原型开发和A/B测试。\n\n**标准化评估**：MASPO提供的联合评估机制为多智能体系统性能评估提供了标准化框架，有助于公平比较不同方案。\n\n## 与ICML 2026的关联\n\nMASPO已被ICML 2026接收，这反映了学术界对其创新性和实用性的认可。论文代码已开源，有助于社区复现和扩展这一工作。\n\n## 总结\n\nMASPO代表了多智能体系统提示词优化领域的重要进展。通过引入联合评估机制和数据驱动的进化束搜索，MASPO有效解决了局部目标与全局目标的错位问题，在高维提示词空间中高效搜索高质量解。在六项多样化任务上的验证证明了其通用性和有效性。\n\n随着多智能体系统从研究原型走向实际应用，MASPO这类自动优化工具将成为不可或缺的组成部分。未来，我们可以期待看到MASPO与持续学习、人机协作、工具使用等方向的深度融合，推动多智能体系统能力的持续提升。