正文

π-Bench：评估主动型个人助手智能体在长程工作流中的表现

π-Bench是一个专门评估主动型个人助手智能体在长程工作流中表现的基准测试，包含100个多轮任务和5个领域特定角色，通过主动性和完整性两个维度衡量智能体质量。

智能体评估主动型AI长程工作流基准测试个人助手大语言模型AI BenchmarkAgent EvaluationProactive AI

发布时间 2026/05/30 01:15最近活动 2026/05/30 01:19预计阅读 3 分钟

章节 01

导读 / 主楼：π-Bench：评估主动型个人助手智能体在长程工作流中的表现

章节 02

原作者与来源

原作者/维护者：Simplified-Reasoning
来源平台：GitHub
原始标题：Pi-Bench
原始链接：https://github.com/Simplified-Reasoning/Pi-Bench
来源发布时间/更新时间：2026-05-29T17:15:30Z

章节 03

背景：为什么需要评估主动型智能体

当前的大型语言模型和智能体系统大多专注于短期任务的执行能力，比如回答单个问题、完成一次代码生成或处理一次对话。然而，在现实世界中，个人助手需要处理的是跨越数小时甚至数天的长程工作流。这些工作流往往从模糊的需求开始，随着交互的深入，重要的要求才会逐渐显现。

传统的基准测试主要关注三个方面：短期任务执行、图形界面/移动设备交互，以及单纯的记忆检索能力。但这些测试无法真正衡量一个智能体是否具备"主动性"——即在用户明确表达需求之前，就能推断出隐藏意图并提前采取行动的能力。这正是π-Bench诞生的背景。

章节 04

π-Bench的核心设计

π-Bench（读作Pi-Bench）是一个专门针对主动型个人助手智能体的基准测试。它的设计有几个关键特点：

首先，它包含100个多轮任务，分布在5个领域特定的角色场景中：研究员（researcher）、市场营销人员（marketer）、药剂师（pharmacist）、法律实习生（law_trainee）和金融从业者（financier）。这些角色代表了真实世界中需要复杂工作流管理的职业场景。

其次，这些任务被组织为多会话的剧集形式，在持久化的工作空间中进行。这意味着智能体需要在跨会话的上下文中保持对工作状态的理解，处理任务之间的依赖关系。

最重要的是，π-Bench引入了"隐藏意图"的概念。用户的初始请求往往是不完整的，重要的需求会在交互过程中逐渐浮现。智能体需要具备推断这些隐藏意图的能力，或者通过有针对性的询问来澄清需求。

章节 05

评估维度：主动性与完整性

π-Bench从两个核心维度评估智能体表现：

章节 06

主动性（Proactivity, PROC）

主动性衡量智能体是否能够尽早解决隐藏意图。这包括两种能力：一是通过推理主动识别用户未明确表达的需求；二是在必要时通过聚焦式询问来引导用户澄清需求。高主动性的智能体能够减少用户的负担，避免让用户在后续交互中反复补充信息。

章节 07

完整性（Completeness, COMP）

完整性衡量最终交付物是否满足所有检查清单要求和工件级义务。即使智能体表现出很高的主动性，如果最终交付的成果不完整，仍然无法获得高评分。这个维度确保智能体不仅"想得远"，还能"做得全"。

评分机制结合了基于评分标准的隐藏意图判断和检查清单验证。审计结果显示，评判者之间的一致性很高（分歧率低于4%），这支持了评估结果的可靠性。

章节 08

当前主流模型的表现

π-Bench团队测试了多个主流大语言模型，结果揭示了一些有趣的发现：

在平均表现方面，GPT-5.4在主动性上领先（67.0%），而Claude Opus 4.6在完整性上表现最佳（67.6%）。这表明不同模型在主动推断和完整执行之间存在权衡。

分角色来看，各模型在不同领域的表现差异显著。例如，Claude Opus 4.6在法律实习生场景下表现突出（完整性74.5%），而GPT-5.4在市场营销和金融场景下主动性更强。Kimi K2.5虽然在平均主动性上较低（43.1%），但在药剂师场景的完整性上却达到了74.8%，说明模型能力存在领域特异性。

值得注意的是，所有模型在研究员场景下的主动性都相对较低（29%-50%），这可能反映了学术研究工作流的复杂性和模糊性。