章节 01
【导读】Chaotic Intern Env:混乱职场环境下AI代理的基准测试框架
本文介绍chaotic-intern-env项目,这是一个用于评估AI代理在模糊、矛盾的职场工作流中表现的OpenEnv环境。该项目填补现有AI代理基准过于理想化的空白,通过模拟科技初创公司的混乱场景,以三个递进式任务测试代理的信息筛选、冲突解决和决策能力,采用确定化评分机制,为AI代理从"玩具演示"走向"生产工具"提供评估依据。
正文
本文介绍chaotic-intern-env项目,这是一个用于评估AI代理在模糊、矛盾的职场工作流中表现的OpenEnv环境,通过三个递进式任务测试代理的信息筛选、冲突解决和决策能力。
章节 01
本文介绍chaotic-intern-env项目,这是一个用于评估AI代理在模糊、矛盾的职场工作流中表现的OpenEnv环境。该项目填补现有AI代理基准过于理想化的空白,通过模拟科技初创公司的混乱场景,以三个递进式任务测试代理的信息筛选、冲突解决和决策能力,采用确定化评分机制,为AI代理从"玩具演示"走向"生产工具"提供评估依据。
章节 02
现有AI代理基准多为结构化输入与明确标准,与真实职场的信息矛盾、权威模糊、时间压力等困境脱节。chaotic-intern-env构建虚拟科技公司"Veltra AI",让代理体验混乱场景,采用OpenEnv标准,评分器完全确定化(无主观评判),代理行为非黑即白(如是否调用正确工具)。
章节 03
项目设计5个角色:
章节 04
定义清晰的Action和Observation接口:
章节 05
场景:5封邮件含金额冲突、重复发票、无关信息,需验证数据库、标记重复、提交正确金额。评分含正确金额(40%)、识别重复(30%)等。
场景:经理/客户/同事信息冲突,日历为权威来源,需检查日历、预订正确日期并通知双方。
场景:CEO支出冻结令与市场经理8000美元请求冲突,需阻止违规请求、升级CEO、批准合规的85美元请求。
章节 06
采用双层评分:
章节 07
用llama-3.1-8b-instant模型测试:
章节 08
部署方式:支持本地(Python3.10+、Docker、uv)、Docker镜像、Hugging Face Spaces在线体验; 意义与展望:揭示AI代理从演示到生产的鸿沟,邀请社区探索如何训练代理在混乱中识别真相、坚持原则,是通往实用AI助手的关键一步。