Zing 论坛

正文

MASPO:多智能体系统提示词联合优化的新框架

多智能体系统的性能高度依赖角色提示词质量,但跨智能体联合优化面临局部目标与全局目标错位的挑战。MASPO通过联合评估机制和数据驱动的进化束搜索,在6项任务上平均提升2.9个百分点,被ICML 2026接收。

多智能体系统提示词优化大语言模型MAS进化算法联合优化ICML 2026
发布时间 2026/05/08 01:35最近活动 2026/05/10 00:53预计阅读 3 分钟
MASPO:多智能体系统提示词联合优化的新框架
1

章节 01

MASPO框架导读:多智能体提示词联合优化的新突破

标题:MASPO:多智能体系统提示词联合优化的新框架 摘要:多智能体系统性能依赖角色提示词质量,但跨智能体联合优化面临局部与全局目标错位挑战。MASPO通过联合评估机制和数据驱动进化束搜索,在6项任务上平均提升2.9个百分点,已被ICML 2026接收。本文将分楼层介绍该框架的背景、方法、实验结果等核心内容。

2

章节 02

多智能体系统的挑战:提示词优化的困境

多智能体系统的崛起与挑战

基于大语言模型的多智能体系统(MAS)已成为解决复杂协作任务的有力工具,应用于软件开发、科学研究等领域。提示词是MAS的"灵魂",定义智能体身份、能力及交互方式,直接影响专业性、协作流畅性和系统整体性能。然而,跨智能体联合优化提示词面临三大困境:

  1. 局部与全局错位:单个智能体提示词优化可能损害整体性能(如强势智能体压制他人);
  2. 高维搜索空间:智能体数量增加导致提示词组合空间指数膨胀,手动调优不切实际;
  3. 评估困难:开放式任务缺乏明确ground-truth,难以确定优化方向。
3

章节 03

MASPO框架核心:联合评估与进化束搜索

MASPO框架核心创新

针对上述挑战,MASPO(Multi-Agent System Prompt Optimization)框架提出两大核心创新:

联合评估机制

与传统仅评估单个智能体局部表现不同,MASPO以"提示词能否促进下游智能体成功"为标准,弥合局部交互与全局结果的鸿沟,无需ground-truth,适用于开放式任务。

数据驱动进化束搜索

面对高维空间,MASPO采用进化束搜索策略:

  1. 种群初始化:从当前提示词出发,通过变异生成候选种群;
  2. 联合评估与选择:保留得分最高的k个候选(束宽);
  3. 迭代进化:重复变异、评估、选择,逐步提升质量;
  4. 跨智能体协同:优化单个智能体时固定其他最佳版本,确保公平性。
4

章节 04

实验验证:六项任务的优异表现

实验验证结果

研究团队在6项多样化任务上验证MASPO有效性:

任务类型

涵盖协作推理、角色扮演对话、代码生成与审查、创意写作协作、信息检索与综合、决策支持系统。

主要结果

  • 平均准确率提升2.9个百分点(优于最先进方法);
  • 所有任务均优于基线,无性能退化;
  • 进化束搜索收敛速度快。

基线对比

  • 单智能体方法(如OPRO、PromptBreeder):忽视智能体间影响,表现不佳;
  • 手动调优:难以达到自动优化效果;
  • 朴素联合优化:易陷入局部最优,效果不如MASPO。
5

章节 05

关键发现:提示词优化的本质洞察

关键发现与洞见

  1. 下游成功指标有效:关注提示词对后续智能体的帮助,更贴合MAS本质需求;
  2. 进化搜索优势:天然适合离散文本空间,不易陷入局部最优;
  3. 提示词依赖关系:智能体提示词调整存在连锁反应,凸显联合优化必要性。
6

章节 06

局限与未来:MASPO的改进方向

局限与未来方向

局限

  • 计算开销大:进化搜索需多次执行MAS;

未来方向

  1. 高效评估策略:如代理模型预测提示词质量,减少实际执行;
  2. 动态环境适应:探索在线/持续优化版本;
  3. 可解释性提升:增强对优化结果的解释能力;
  4. 跨任务迁移:研究优化策略的跨任务复用。
7

章节 07

实际价值与学术认可:MASPO的应用与ICML接收

实际应用价值与学术认可

应用价值

  • 降低开发门槛:减少对提示词工程专家依赖;
  • 提升系统性能:发现人类难以想到的提示词组合;
  • 加速迭代:缩短调优周期,支持快速原型与A/B测试;
  • 标准化评估:提供联合评估框架,公平比较方案。

学术认可

MASPO已被ICML 2026接收,论文代码开源,便于社区复现与扩展。