# AuraDent：实时语音驱动的牙科临床文档自动化平台

> AuraDent 是一个面向牙科诊所的实时文档平台，通过 Deepgram 语音识别、AI 智能提取和 AWS 异步处理，将医生椅旁口述自动转化为结构化病历、治疗图表和术后指导。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-26T22:44:08.000Z
- 最近活动: 2026-04-26T23:23:34.433Z
- 热度: 157.3
- 关键词: 医疗AI, 语音识别, 临床文档, 牙科, Deepgram, AWS Lambda, PII脱敏
- 页面链接: https://www.zingnex.cn/forum/thread/auradent
- Canonical: https://www.zingnex.cn/forum/thread/auradent
- Markdown 来源: ingested_event

---

## 临床文档的痛点与机遇

牙科诊疗过程中，医生需要在治疗患者的同时记录病历、更新治疗图表、撰写术后指导——这些文档工作既耗时又容易出错。传统的做法是治疗后回忆填写，信息准确性和完整性都难以保证。AuraDent 的诞生正是为了解决这一行业痛点：让医生专注于治疗，让 AI 处理文档。

## 系统架构概览

AuraDent 采用 TypeScript 单体仓库架构，将实时语音处理、AI 智能提取和异步后处理有机结合。整个系统分为五个核心模块：

### 实时网关（Gateway）

基于 Fastify 和 WebSocket 构建的实时网关是系统的入口。它接收来自浏览器的前端音频流，将其转发给 Deepgram 进行语音识别。网关负责管理会话生命周期，区分暂定转录（partial）和最终转录（final），并在将内容发送给 AI 之前执行 PII（个人身份信息）脱敏处理。

### 智能代理核心（Agent Core）

这是系统的"大脑"，基于 Vercel AI SDK 构建。代理接收脱敏后的转录文本，通过类型化的工具调用（typed tools）和 Zod 验证，提取结构化的临床发现。例如，当医生说 "患者右下第二磨牙需要根管治疗"，代理会识别出牙位（#31）、诊断（需要根管治疗）并更新相应的数据结构。

### 环境前端（Web）

React + Vite 构建的临床终端界面，为医生提供实时反馈。界面包含：

- **波形可视化**：显示麦克风活动状态
- **转录区域**：展示暂定和最终转录文本
- **治疗图表**：动画式更新牙齿状态
- **追踪视图**：显示代理的思考过程、工具调用和完成事件

### 归一化层（Ingestion）

负责将代理提取的原始结构化数据转换为适合持久化的记录格式，包括去重逻辑（同一牙齿的多次提及合并）和来源追溯（记录每条发现对应的语音片段）。

### 异步工作器（Worker）

基于 AWS Lambda 的后处理模块。当会话结束时，网关将会话数据（脱敏转录、结构化发现、追踪记录、性能指标）发送到 SQS 队列，触发工作器生成术后 PDF 指导、模拟保险预授权，并将完整记录写入 PostgreSQL。

## 核心特性详解

### 实时性与延迟优化

系统针对临床场景的实时性要求做了多项优化：

- **首令牌时间（TTFT）**：从语音结束到 AI 开始响应的时间被显式监控和优化
- **流式处理**：转录、提取、图表更新都是流式进行，医生可以实时看到 AI 的理解过程
- **WebSocket 重连**：网关和前端都实现了自动重连机制，应对网络波动

### 隐私与合规

医疗数据的隐私保护是系统设计的重中之重：

- **PII 脱敏**：在转录内容到达 AI 模型之前，系统会识别并脱敏患者姓名、电话等敏感信息
- **脱敏可视化**：当检测到 PII 时，界面会显示脱敏后的转录版本
- **追踪保留**：安全相关的追踪事件（脱敏、工具调用）会被优先保留，不会被大量转录内容挤出

### 透明度与可审计性

AuraDent 强调 AI 决策的可解释性：

- **代理追踪**：完整记录代理的思考模式、工具调用参数和完成事件
- **来源追溯**：每条结构化发现都记录其来源的语音片段 ID
- **去重记录**：合并重复发现时保留所有原始来源信息

## 开发状态与路线图

截至项目最新更新，已完成的功能包括：

- 单体仓库架构和共享契约定义
- React 环境终端界面（波形、转录、图表、追踪视图）
- Fastify WebSocket 网关（支持模拟和实时 Deepgram 模式）
- 浏览器麦克风采集和 PCM 流式传输
- 服务端 PII 脱敏
- 基于工具调用的临床代理（含启发式兜底）
- 归一化层和 PostgreSQL 持久化
- 工作器 PDF 生成和本地/云持久化
- 会话关闭载荷组装和 SQS 发布

进行中的工作：

- Deepgram 实时转录的端到端集成
- 转录修订协调（处理部分/最终更新的冲突）
- Vercel AI SDK 编排的完全实现
- AWS CDK 部署自动化
- 生产级 PostgreSQL 和下游持久化加固

## 本地开发与测试

项目提供了完整的本地开发路径：

```bash
# 安装依赖
npm install

# 启动网关（模拟模式）
npm run dev:gateway

# 启动前端
npm run dev:web
```

对于实时转录，需要配置环境变量：

```bash
export DEEPGRAM_API_KEY=your_key
export DEEPGRAM_MODEL=nova-3
export AI_GATEWAY_API_KEY=your_key
export AURADENT_AGENT_MODEL=openai/gpt-4.1-mini
```

本地测试还支持工作器重放功能：

```bash
npm run run:worker-local -- /path/to/session-close-payload.json
```

## 应用场景与价值主张

AuraDent 的目标用户是牙科诊所和口腔医疗机构。其核心价值在于：

- **提升文档质量**：实时记录比事后回忆更准确完整
- **节省时间**：医生无需在诊疗后专门花时间写病历
- **改善患者体验**：医生可以更专注于与患者交流
- **合规保障**：完整的审计追踪和 PII 处理机制

项目的推荐 MVP 聚焦于牙周病（perio）工作流：实时麦克风采集、Deepgram 转录、PII 安全代理提取、动画图表更新、可见追踪事件、会话关闭入队、Lambda 生成文档和最终持久化。

## 总结

AuraDent 代表了 AI 在垂直医疗领域的一次务实应用。它没有追求通用 AI 的宏大叙事，而是聚焦于牙科文档这一具体场景，通过精心设计的架构（实时流处理 + AI 提取 + 异步后处理）和严格的隐私保护措施，为临床工作流提供真正可用的自动化方案。对于关注医疗 AI 应用落地的开发者和医疗机构，AuraDent 的架构设计和实现细节都具有参考价值。
