正文

MASPO：多智能体系统提示词联合优化的新框架

多智能体系统的性能高度依赖角色提示词质量，但跨智能体联合优化面临局部目标与全局目标错位的挑战。MASPO通过联合评估机制和数据驱动的进化束搜索，在6项任务上平均提升2.9个百分点，被ICML 2026接收。

多智能体系统提示词优化大语言模型MAS进化算法联合优化ICML 2026

发布时间 2026/05/08 01:35最近活动 2026/05/10 00:53预计阅读 3 分钟

章节 01

MASPO框架导读：多智能体提示词联合优化的新突破

标题：MASPO：多智能体系统提示词联合优化的新框架摘要：多智能体系统性能依赖角色提示词质量，但跨智能体联合优化面临局部与全局目标错位挑战。MASPO通过联合评估机制和数据驱动进化束搜索，在6项任务上平均提升2.9个百分点，已被ICML 2026接收。本文将分楼层介绍该框架的背景、方法、实验结果等核心内容。

章节 02

多智能体系统的挑战：提示词优化的困境

多智能体系统的崛起与挑战

基于大语言模型的多智能体系统（MAS）已成为解决复杂协作任务的有力工具，应用于软件开发、科学研究等领域。提示词是MAS的"灵魂"，定义智能体身份、能力及交互方式，直接影响专业性、协作流畅性和系统整体性能。然而，跨智能体联合优化提示词面临三大困境：

局部与全局错位：单个智能体提示词优化可能损害整体性能（如强势智能体压制他人）；
高维搜索空间：智能体数量增加导致提示词组合空间指数膨胀，手动调优不切实际；
评估困难：开放式任务缺乏明确ground-truth，难以确定优化方向。

章节 03

MASPO框架核心：联合评估与进化束搜索

MASPO框架核心创新

针对上述挑战，MASPO（Multi-Agent System Prompt Optimization）框架提出两大核心创新：

联合评估机制

与传统仅评估单个智能体局部表现不同，MASPO以"提示词能否促进下游智能体成功"为标准，弥合局部交互与全局结果的鸿沟，无需ground-truth，适用于开放式任务。

数据驱动进化束搜索

面对高维空间，MASPO采用进化束搜索策略：

种群初始化：从当前提示词出发，通过变异生成候选种群；
联合评估与选择：保留得分最高的k个候选（束宽）；
迭代进化：重复变异、评估、选择，逐步提升质量；
跨智能体协同：优化单个智能体时固定其他最佳版本，确保公平性。

章节 04

实验验证：六项任务的优异表现

实验验证结果

研究团队在6项多样化任务上验证MASPO有效性：

任务类型

涵盖协作推理、角色扮演对话、代码生成与审查、创意写作协作、信息检索与综合、决策支持系统。

主要结果

平均准确率提升2.9个百分点（优于最先进方法）；
所有任务均优于基线，无性能退化；
进化束搜索收敛速度快。

基线对比

单智能体方法（如OPRO、PromptBreeder）：忽视智能体间影响，表现不佳；
手动调优：难以达到自动优化效果；
朴素联合优化：易陷入局部最优，效果不如MASPO。

章节 05

关键发现：提示词优化的本质洞察

关键发现与洞见

下游成功指标有效：关注提示词对后续智能体的帮助，更贴合MAS本质需求；
进化搜索优势：天然适合离散文本空间，不易陷入局部最优；
提示词依赖关系：智能体提示词调整存在连锁反应，凸显联合优化必要性。

章节 06

局限与未来：MASPO的改进方向

局限与未来方向

局限

计算开销大：进化搜索需多次执行MAS；

未来方向

高效评估策略：如代理模型预测提示词质量，减少实际执行；
动态环境适应：探索在线/持续优化版本；
可解释性提升：增强对优化结果的解释能力；
跨任务迁移：研究优化策略的跨任务复用。

章节 07

实际价值与学术认可：MASPO的应用与ICML接收

实际应用价值与学术认可

应用价值

降低开发门槛：减少对提示词工程专家依赖；
提升系统性能：发现人类难以想到的提示词组合；
加速迭代：缩短调优周期，支持快速原型与A/B测试；
标准化评估：提供联合评估框架，公平比较方案。

学术认可

MASPO已被ICML 2026接收，论文代码开源，便于社区复现与扩展。