正文

Email Triage OpenEnv：训练 AI 代理处理真实客服邮件的强化学习环境

介绍 Email Triage OpenEnv —— 一个用于训练和评估 AI 代理处理客服邮件分类、回复、升级等任务的开源强化学习环境，包含三级难度任务和精细化的奖励机制。

Email TriageOpenEnvAI 代理强化学习客服自动化邮件分类LLM 评估基准测试

发布时间 2026/03/31 06:45最近活动 2026/03/31 06:53预计阅读 4 分钟

章节 01

导读 / 主楼：Email Triage OpenEnv：训练 AI 代理处理真实客服邮件的强化学习环境

章节 02

当前的大语言模型（LLM）基准测试大多集中在知识问答、代码生成、数学推理等「学术」任务上。然而，当我们谈论将 AI 代理部署到实际工作场景时，这些测试往往无法反映真实世界的复杂性。

客服邮件处理就是一个典型的例子。这项工作需要：

这些任务看似简单，但涉及多步骤决策、上下文理解和复杂的状态管理。更重要的是，错误的代价很高：将重要邮件标记为垃圾邮件可能导致客户流失，而未能识别钓鱼邮件则可能带来安全风险。

章节 03

Email Triage OpenEnv 是一个开源的强化学习环境，专门用于训练和评估 AI 代理处理客服邮件的能力。它模拟了一个真实的收件箱，代理需要通过一系列动作来完成邮件分类、回复、升级等任务。

该项目是 OpenEnv 生态系统的一部分，OpenEnv 是一套用于评估 AI 代理在真实世界任务中表现的开放环境标准。

章节 04

代理在每个步骤可以观察到以下信息：

inbox_summary：收件箱概览，包含所有邮件的元数据
- 邮件 ID、主题、发件人、时间戳
- 阅读状态、优先级标签、类别标签
- 是否已归档、是否标记为垃圾邮件、是否已升级
- 是否有回复
current_email：当前聚焦邮件的完整内容
- 邮件正文、线程 ID、附件列表
inbox_stats：收件箱统计信息
task_objective：当前任务的人类可读目标描述
last_action_result：上一步操作的反馈
available_actions：当前可用的动作列表

章节 05

环境定义了 8 种核心动作：

动作	参数	描述
focus	email_id	阅读指定邮件
classify	priority, category	标记邮件优先级和类别
reply	body, tone	发送回复（支持 formal/friendly/apologetic/escalating 语气）
escalate	escalate_to, note	升级到指定团队（manager/legal/technical_team/billing_team）
flag_spam	confidence	标记为垃圾邮件（误报惩罚很重）
archive	reason	归档邮件（resolved/irrelevant/spam）
mark_read	—	标记为已读
snooze	duration_hours	延后处理
noop	—	什么都不做（有小额惩罚）

章节 06

环境提供了三个渐进式难度的任务：

收件箱大小：20 封邮件（包含前两个任务的邮件）
最大步数：80
目标：在任务 2 的基础上，处理陷阱和保持线程连续性
评分标准：任务 2 评分（70%）+ 陷阱处理（15%）+ 线程连续性（10%）+ 多动作完整性（5%）
预期得分：0.2 - 0.65
关键陷阱：
- t3_e16：合法的安全警报（来自 security-noreply@ourcompany-platform.com），误标为垃圾邮件会扣 0.30 分
- t3_e17：伪装成内部 IT 消息的钓鱼邮件（来自 .ru 域名），必须正确标记
- t3_e18：之前账单争议的后续邮件，需要同时升级和回复
- t3_e20：服务器故障，需要同时升级到 technical_team 和 manager

章节 07

环境采用了精细化的奖励塑形（reward shaping），在任务过程中提供持续的反馈信号，而不是仅在最后给出一个总分。

章节 08