章节 01
导读 / 主楼:Email Triage OpenEnv:训练 AI 代理处理真实客服邮件的强化学习环境
介绍 Email Triage OpenEnv —— 一个用于训练和评估 AI 代理处理客服邮件分类、回复、升级等任务的开源强化学习环境,包含三级难度任务和精细化的奖励机制。
正文
介绍 Email Triage OpenEnv —— 一个用于训练和评估 AI 代理处理客服邮件分类、回复、升级等任务的开源强化学习环境,包含三级难度任务和精细化的奖励机制。
章节 01
介绍 Email Triage OpenEnv —— 一个用于训练和评估 AI 代理处理客服邮件分类、回复、升级等任务的开源强化学习环境,包含三级难度任务和精细化的奖励机制。
章节 02
当前的大语言模型(LLM)基准测试大多集中在知识问答、代码生成、数学推理等「学术」任务上。然而,当我们谈论将 AI 代理部署到实际工作场景时,这些测试往往无法反映真实世界的复杂性。
客服邮件处理就是一个典型的例子。这项工作需要:
这些任务看似简单,但涉及多步骤决策、上下文理解和复杂的状态管理。更重要的是,错误的代价很高:将重要邮件标记为垃圾邮件可能导致客户流失,而未能识别钓鱼邮件则可能带来安全风险。
章节 03
Email Triage OpenEnv 是一个开源的强化学习环境,专门用于训练和评估 AI 代理处理客服邮件的能力。它模拟了一个真实的收件箱,代理需要通过一系列动作来完成邮件分类、回复、升级等任务。
该项目是 OpenEnv 生态系统的一部分,OpenEnv 是一套用于评估 AI 代理在真实世界任务中表现的开放环境标准。
章节 04
代理在每个步骤可以观察到以下信息:
inbox_summary:收件箱概览,包含所有邮件的元数据
current_email:当前聚焦邮件的完整内容
inbox_stats:收件箱统计信息
task_objective:当前任务的人类可读目标描述
last_action_result:上一步操作的反馈
available_actions:当前可用的动作列表
章节 05
环境定义了 8 种核心动作:
| 动作 | 参数 | 描述 |
|---|---|---|
| focus | email_id | 阅读指定邮件 |
| classify | priority, category | 标记邮件优先级和类别 |
| reply | body, tone | 发送回复(支持 formal/friendly/apologetic/escalating 语气) |
| escalate | escalate_to, note | 升级到指定团队(manager/legal/technical_team/billing_team) |
| flag_spam | confidence | 标记为垃圾邮件(误报惩罚很重) |
| archive | reason | 归档邮件(resolved/irrelevant/spam) |
| mark_read | — | 标记为已读 |
| snooze | duration_hours | 延后处理 |
| noop | — | 什么都不做(有小额惩罚) |
章节 06
环境提供了三个渐进式难度的任务:
章节 07
环境采用了精细化的奖励塑形(reward shaping),在任务过程中提供持续的反馈信号,而不是仅在最后给出一个总分。
章节 08
| 事件 | 奖励 |
|---|---|
| 正确的优先级分类 | +0.10 |
| 正确的类别分类 | +0.10 |
| 正确的回复语气 | +0.08 |
| 非空回复内容 | +0.04 |
| 正确的升级团队 | +0.12 |
| 真阳性垃圾邮件标记 | +0.10 |
| 正确归档(垃圾/已解决) | +0.05 |
| 阅读邮件(focus 动作) | +0.01 |