# EHRGym：医疗 AI 智能体的训练沙盒，让计算机学会操作电子病历系统

> EHRGym 是一个容器化的强化学习环境，专门用于训练和评估能够在类 Epic 电子病历系统中执行临床工作流的计算机使用智能体，支持 GRPO 训练并与 TRL 框架原生集成。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-03T20:45:08.000Z
- 最近活动: 2026-04-03T20:49:16.830Z
- 热度: 161.9
- 关键词: EHRGym, 医疗AI, 电子病历, 强化学习, OpenEnv, GRPO, 计算机使用智能体, 临床工作流, 合成数据
- 页面链接: https://www.zingnex.cn/forum/thread/ehrgym-ai
- Canonical: https://www.zingnex.cn/forum/thread/ehrgym-ai
- Markdown 来源: ingested_event

---

## 医疗 AI 的落地困境

人工智能在医疗领域的应用一直是研究热点，但从实验室到临床实践的转化却困难重重。其中一个核心障碍是**环境交互的复杂性**：真实的电子病历系统（EHR）不仅界面复杂、数据敏感，而且涉及严格的合规要求，研究人员几乎不可能直接在这些系统上训练或测试 AI 智能体。

传统的解决方案是使用模拟数据或简化的界面原型，但这些方法往往无法捕捉真实临床工作流的细微差别。医生在电子病历中的操作涉及多步骤决策、跨模块导航、以及基于不完整信息的推理，这些能力难以在简化的环境中培养。

EHRGym 的出现正是为了解决这一痛点。它为医疗 AI 研究提供了一个既真实又安全的训练环境，让智能体能够在逼真的临床场景中学习和进化。

## 项目架构：双服务容器化设计

EHRGym 采用容器化架构，将环境打包为 Docker 镜像，确保可复现性和部署便利性。单个容器内部运行两个核心服务：

### Next.js EHR 应用（端口 3000）

这是一个基于 Next.js 和 TypeScript 开发的 Web 端电子病历界面，高度模仿 Epic 系统的布局和交互模式。界面包含以下核心模块：

- **患者列表入口**：类似排班表的页面，医生可以从中选择患者进入病历。
- **病历外壳**：包含活动侧边栏（摘要、病历回顾、医嘱、病历文书、就诊结束）和患者信息横幅。
- **病历回顾标签页**：展示就诊记录、实验室检查结果的时间线和趋势图，以及临床文书的列表。
- **病历文书模块**：支持创建病程记录，采用 SOAP 结构化格式（主观资料、客观资料、评估、计划）。
- **医嘱模块**：支持从受限偏好列表中搜索和选择医嘱，配置参数（剂量、频率、检查时间），并遵循草稿→待签名→已签名的状态流转。

### OpenEnv 环境服务器（端口 8000）

这是一个基于 FastAPI 和 Playwright 构建的强化学习环境服务器，实现了标准的 OpenEnv 接口：

- **reset()**：重置环境状态，重新创建数据库，重新加载患者、就诊、实验室结果、病历文书和医嘱数据。
- **step(action)**：执行智能体动作，控制无头 Chromium 浏览器与 EHR 界面交互。
- **state**：返回当前环境状态，包括患者 ID、就诊 ID、场景 ID、评分进度和累积奖励。

数据层采用 SQLite 配合 Prisma ORM，在重置时通过数据库快照和写时复制机制保证速度。

## OpenEnv 标准：强化学习环境的通用语言

EHRGym 的一个重要设计选择是遵循 OpenEnv 标准。这一标准定义了计算机使用智能体与 Web 环境交互的统一接口，包括类型化的 Action、Observation 和 State 模型。

这种标准化的价值在于**生态互操作性**。任何遵循 OpenEnv 的智能体框架都可以无缝对接 EHRGym，无需适配工作。目前，EHRGym 已与 Hugging Face 的 TRL 库原生集成，支持使用 GRPOTrainer 进行 GRPO（Group Relative Policy Optimization）微调。

GRPO 是一种无需价值网络的强化学习算法，特别适合大语言模型的训练。通过 EHRGym 提供的真实环境反馈，研究人员可以训练出能够在复杂临床界面中自主导航、提取信息、做出决策的智能体。

## 任务设计：从单元技能到完整工作流

EHRGym 的任务库设计遵循循序渐进的原则，模拟医生从实习生到独立执业者的成长路径：

### 第一阶段：单元技能

智能体首先学习基础操作：
- 在侧边栏和标签页之间导航
- 打开病历回顾模块
- 筛选实验室检查结果
- 打开和阅读病历文书

### 第二阶段：单一目标

在掌握基础操作后，智能体执行单一明确的任务：
- 开具一项特定的医嘱并签名
- 完成一份病历文书并签名
- 查找某个特定的实验室指标

### 第三阶段：多步骤工作流

最终，智能体需要完成完整的临床工作流：
- 病历回顾：浏览就诊记录、实验室结果、既往病历文书
- 病历文书：基于回顾的信息撰写病程记录
- 医嘱开具：根据评估结果开具相应的检查或药物医嘱
- 就诊结束：完成签名和关闭流程

每个任务都配有详细的评分标准（rubric），定义了成功完成任务的必要条件。奖励函数结合了终端奖励（任务完成）和过程奖励（有意义的中间步骤），同时对无效操作、导航错误、不安全或无关的医嘱、以及过多的步骤数给予惩罚。

## 合成数据：平衡真实性与隐私保护

医疗数据的敏感性是 AI 研究的最大障碍之一。EHRGym 采用合成数据策略，使用 Synthea 生成纵向的合成病历记录，包括就诊、诊断、药物、实验室检查、生命体征、手术等信息，并以 FHIR R4 格式导出。

合成数据的优势显而易见：
- **零隐私风险**：不涉及任何真实患者信息（PHI）。
- **可扩展性**：可以生成任意数量的患者和场景。
- **可控性**：可以设计特定的疾病轨迹和临床场景用于测试。

为了确保合成数据的真实性，项目采用标准医学编码：
- LOINC 用于实验室检查
- SNOMED CT 用于问题、发现和手术
- RxNorm 用于药物

病历文书部分采用基于结构化事实的模板生成，既保证了评分的一致性，又避免了完全自由生成带来的多样性挑战。

## 技术实现细节

### 动作空间

EHRGym 支持多层次的动作抽象：

**底层计算机使用动作**：模拟真实的鼠标和键盘操作，包括点击、拖拽、滚动、按键、输入文本、等待等。这些动作通过 Playwright 控制无头浏览器执行，最接近人类用户的实际行为。

**高层语义动作**：为课程学习和调试提供便利，如 `click(selector)`、`fill(selector, text)`、`goto(path)`、`select_patient(patient_id)`。这些动作抽象了底层细节，让智能体可以专注于任务逻辑。

### 观察空间

智能体在每个步骤接收的观察包括：
- 目标/指令文本：当前任务的自然语言描述
- 屏幕截图：经过降采样的 base64 PNG 图像，提供视觉上下文
- 当前路由/URL 和活动上下文：帮助智能体定位自己在系统中的位置
- 可选的 DOM 快照和可访问性树：为需要结构化信息的智能体提供额外输入
- 元数据：包括时间戳、动作成功状态、结构化错误信息等

### 奖励设计

奖励函数是强化学习的核心。EHRGym 的奖励设计遵循以下原则：
- **稀疏终端奖励**：当任务目标完全达成时给予大额奖励（如正确的病历文书已签名 + 正确的医嘱已签名）。
- **密集过程奖励**：对有意义的中间步骤给予小额奖励（成功导航到目标页面、找到目标实验室指标、开具必需的医嘱、完成签名）。
- **惩罚机制**：对无效动作、导航错误、不安全或无关的医嘱、以及过多的步骤数给予负奖励，鼓励高效和准确的行为。

## 应用场景与潜在影响

EHRGym 为多个研究方向打开了大门：

### 临床决策支持系统

通过训练智能体在 EHR 中自主提取信息并做出决策，可以开发出更智能的临床决策支持工具。这些工具不仅能提供建议，还能主动帮助医生完成繁琐的数据检索和整理工作。

### 医疗界面优化

通过分析智能体在执行任务时的行为模式，研究人员可以识别现有 EHR 界面的可用性问题，为系统设计提供数据驱动的改进建议。

### 医学教育和培训

EHRGym 可以作为医学生和住院医师的虚拟训练环境，让他们在无风险的环境中练习电子病历操作，熟悉临床工作流。

### 多模态医疗 AI

未来可以扩展 EHRGym 支持医学影像、病理切片等多模态数据的集成，训练能够综合处理文本、数值和图像信息的智能体。

## 局限性与未来方向

项目文档明确指出了当前的非目标：
- 不是 Epic 的像素级克隆，而是工作流和信息布局的模拟
- 不包含完整的企业级 EHR 功能（如药物管理、计费、排班、收件箱、预授权等）

这些限制反映了项目的务实定位：先解决核心问题，再逐步扩展。未来的发展方向可能包括：
- 支持更多的临床场景和专科工作流
- 集成真实的医学知识库和临床指南
- 支持多智能体协作（如医生、护士、药师之间的协作）
- 引入时间压力和资源限制，模拟真实的临床环境

## 结语：迈向临床级 AI 的重要一步

EHRGym 代表了医疗 AI 研究基础设施的重要进步。它提供了一个既真实又安全的训练环境，让研究人员能够在接近真实临床场景的条件下开发和测试 AI 智能体。

通过与 OpenEnv 标准和 TRL 框架的集成，EHRGym 降低了进入门槛，让更多的研究团队能够参与到这一领域。随着项目的成熟和社区的贡献，我们有理由期待看到越来越多能够在真实临床环境中提供价值的 AI 系统诞生。
