章节 01
SOTOPIA-TOM基准框架:多智能体交互中的信息管理与心智理论评估
SOTOPIA-TOM是一个多维度基准框架,旨在评估LLM智能体在信息不对称、隐私敏感的多方交互场景中管理信息的能力。该框架揭示了当前模型在复杂协调场景中的持续局限,而心智理论(ToM)干预被证明能显著提升智能体的信息管理表现。
正文
SOTOPIA-TOM是一个多维度基准框架,评估LLM智能体在信息不对称和隐私敏感的多方交互中管理信息的能力,揭示了当前模型在复杂协调场景中的持续局限。
章节 01
SOTOPIA-TOM是一个多维度基准框架,旨在评估LLM智能体在信息不对称、隐私敏感的多方交互场景中管理信息的能力。该框架揭示了当前模型在复杂协调场景中的持续局限,而心智理论(ToM)干预被证明能显著提升智能体的信息管理表现。
章节 02
随着LLM智能体参与多方交互场景增多,妥善处理信息不对称(知道何时向谁披露信息)成为关键需求。然而,现有基准无法在真实多方场景中衡量这种能力,制约了多智能体系统的发展。
章节 03
SOTOPIA-TOM聚焦评估智能体在信息不对称环境、隐私敏感交互、多方协调场景(3-5个智能体)中的导航能力。
支持两种通信模式:
包含160个人工审核场景,覆盖8个行业领域,每个智能体拥有独特信息片段,信息传播依赖不同渠道。
章节 04
研究团队整合四维度为复合INFOMGMT指标,提供一站式评估。
章节 05
实验包含6个LLM主干模型及三种提示策略:基线(标准提示)、隐私增强(CoT-privacy)、心智理论干预(ToM-based)。
章节 06
不同策略效果差异:
章节 07
当前LLM智能体在复杂信息不对称协调、隐私感知决策、心智理论能力方面存在持续不足。
SOTOPIA-TOM是可扩展测试平台,支持开发隐私意识多智能体系统、研究ToM应用等。
成果可用于智能客服、谈判决策支持、隐私保护AI、社交机器人等场景。
章节 08
SOTOPIA-TOM通过真实场景与全面评估,系统性揭示了LLM智能体的信息管理局限。ToM干预的显著效果表明,显式心智理论建模是提升多智能体系统能力的关键方向,为相关研究提供了重要标准与方向。