# AgentForge：面向临床AI系统的多智能体对抗安全测试平台

> 本文介绍AgentForge，一个专为Clinical Co-Pilot设计的四智能体红队测试系统，通过多智能体协作自动化发现医疗AI系统中的提示注入、PHI泄露和权限提升等安全漏洞。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-11T23:45:08.000Z
- 最近活动: 2026-05-12T01:45:50.465Z
- 热度: 153.0
- 关键词: AI安全, 红队测试, 多智能体系统, 医疗AI, 提示注入, PHI保护, LangGraph, 对抗性测试, LLM安全, 临床AI
- 页面链接: https://www.zingnex.cn/forum/thread/agentforge-ai
- Canonical: https://www.zingnex.cn/forum/thread/agentforge-ai
- Markdown 来源: ingested_event

---

# AgentForge：面向临床AI系统的多智能体对抗安全测试平台\n\n## 背景：医疗AI的安全挑战\n\n随着大型语言模型在临床场景中的广泛应用，医疗AI系统面临独特的安全挑战。Clinical Co-Pilot是一个集成在OpenEMR中的AI聊天机器人，允许医生通过自然语言界面访问患者病历数据和临床指南。这种AI介导的受保护健康信息（PHI）访问方式创造了一个高价值、高风险的攻击面，传统的静态安全扫描无法充分覆盖。\n\nAgentForge正是为解决这一问题而诞生的对抗性AI安全平台。它通过多智能体协作的方式，持续对Clinical Co-Pilot进行红队测试，自动化发现潜在的安全漏洞。\n\n## 系统架构：四智能体协作设计\n\nAgentForge采用基于LangGraph的四智能体架构，每个智能体具有明确的职责边界和独立的模型调用上下文。这种设计将多智能体协调与线性流水线区分开来，实现了真正的协作式安全测试。\n\n### 核心智能体组成\n\n**1. Orchestrator（协调器）**\n\n- 使用模型：Claude Sonnet 4.6\n- 职责：读取SQLite覆盖缺口数据库，指导Red Team智能体，管理Token预算，触发回归测试\n- 功能：作为系统的"大脑"，Orchestrator负责规划测试策略，根据历史数据识别未充分测试的攻击类别，并分配资源进行针对性测试\n\n**2. Red Team（红队）**\n\n- 使用模型：Groq llama-3.3-70b / Qwen2.5:32b（本地Ollama部署）\n- 职责：生成和变异对抗性输入，执行针对目标系统的多轮HTTP序列攻击\n- 设计考量：选择开源权重模型而非前沿商业模型（如Claude或GPT-4）是经过深思熟虑的。商业模型经过安全训练，会拒绝攻击性安全工作流程。而Qwen2.5:32b和llama-3.3-70b能够完全参与提示注入、PHI泄露和角色升级等攻击任务的测试\n\n**3. Judge（评判）**\n\n- 使用模型：Claude Sonnet 4.6\n- 职责：独立判定攻击结果（成功/部分成功/失败/不确定），使用版本化的评分标准，并注入金丝雀检测漂移\n- 特点：Judge智能体不参与攻击生成，专注于客观评估，确保测试结果的公正性和一致性\n\n**4. Documentation（文档）**\n\n- 使用模型：Claude Sonnet 4.6\n- 职责：将确认的攻击转化为结构化漏洞报告，对严重级别（Critical）的发现设置人工审批关卡\n- 输出：自动生成符合安全报告标准的漏洞文档，支持后续修复工作\n\n### 智能体交互流程\n\n核心攻击循环遵循`Orchestrator → Red Team → Judge`的路径。当Judge返回"部分成功"的判定结果时，会直接反馈给Red Team进行变异优化——这种循环边缘设计是多智能体协调的关键特征，区别于简单的顺序流水线。\n\n整个系统的数据流如下：\n\n1. Orchestrator根据覆盖缺口和预算分配攻击任务\n2. Red Team生成对抗性输入并执行多轮HTTP攻击序列\n3. Judge独立评估攻击结果\n4. 如确认漏洞，Documentation智能体生成结构化报告\n5. 严重级别报告需人工审批后入库\n6. 所有操作记录到SQLite回归存储和Langfuse追踪系统\n\n## 部署模式与灵活性\n\nAgentForge支持两种部署模式，适应不同的使用场景：\n\n**本地开发模式**\n- Red Team模型：通过Ollama运行的Qwen2.5:32b\n- 适用场景：开发测试、完全隐私保护的环境\n- 要求：Python 3.12+、Ollama、Anthropic API密钥\n\n**生产部署模式**\n- Red Team模型：通过Groq API运行的llama-3.3-70b\n- 适用场景：生产环境、7x24小时运行、无需本地设备\n- 基础设施：DigitalOcean Docker服务，Apache反向代理\n\n通过`RED_TEAM_PROVIDER`环境变量可在两种模式间切换，实现开发到生产的平滑过渡。\n\n## 攻击类别与测试覆盖\n\nAgentForge设计了六大攻击类别，全面覆盖医疗AI系统的潜在风险：\n\n### 1. 提示注入（Prompt Injection）\n\n包括直接指令覆盖、通过患者笔记或RAG的间接注入、多轮对话中的角色漂移，以及临床权威注入等子类别。这是大语言模型系统最常见的攻击向量之一。\n\n### 2. PHI泄露（PHI Exfiltration）\n\n测试跨患者数据暴露、授权绕过和从会话历史中推断敏感信息等攻击路径。在医疗场景中，患者隐私保护是合规的核心要求。\n\n### 3. 状态腐败（State Corruption）\n\n检测上下文投毒、对话历史操纵和虚假临床事实注入等攻击，确保系统状态完整性。\n\n### 4. 工具滥用（Tool Misuse）\n\n包括参数篡改、递归工具调用和摄入端点滥用等测试，验证系统工具接口的安全性。\n\n### 5. 拒绝服务（Denial of Service）\n\n通过Token耗尽和无界工具调用序列导致的循环放大等模式，测试系统的可用性保护机制。\n\n### 6. 身份利用（Identity Exploitation）\n\n测试权限升级、角色劫持和PID字段操纵等攻击，验证身份验证和授权机制的健壮性。\n\n所有测试用例以结构化JSON格式存储在`evals/cases/`目录中，确保测试的可确定性和可复现性。\n\n## 人机协作的安全把关机制\n\nAgentForge在自动化和人工监督之间取得平衡，设置了两处人工审批关卡：\n\n1. **严重级别（Critical）漏洞报告**：在正式归档前需要人工审批，满足HIPAA合规义务\n2. **不确定的Judge判定**：升级到人工队列，绝不自动归档\n\n这种设计既保证了测试效率，又确保了关键安全发现的妥善处理，符合医疗行业的合规要求。\n\n## 技术实现亮点\n\n### 状态管理与追踪\n\n系统使用SQLite作为回归存储，记录覆盖情况、发现、判定结果和预算消耗。同时集成Langfuse进行全链路追踪，支持对每个智能体的操作进行审计和分析。\n\n### 成本控制机制\n\n通过`SESSION_BUDGET_TOKENS`环境变量设置每轮测试的Token上限，Orchestrator智能体负责监控消耗并在达到阈值时停止测试，实现成本可控的安全测试。\n\n### 变异循环优化\n\n当Judge返回"部分成功"时，系统会自动触发Red Team的变异循环（最多`MAX_MUTATIONS`次），通过迭代优化攻击策略，提高漏洞发现率。\n\n## 实际应用价值\n\nAgentForge代表了AI安全测试领域的重要进展。它将传统的红队测试方法论与多智能体系统相结合，实现了：\n\n- **自动化**：减少人工安全测试的工作量\n- **全面性**：系统性地覆盖多种攻击向量\n- **可重复性**：结构化测试用例确保结果可复现\n- **合规性**：人工审批关卡满足医疗行业要求\n- **成本效益**：Token预算控制使测试成本可预测\n\n对于部署AI系统的组织而言，AgentForge提供了一种可扩展的安全验证方法，特别是在处理敏感数据的高风险场景中。\n\n## 结语\n\n随着AI系统在关键领域（如医疗）的深入应用，安全测试的重要性日益凸显。AgentForge展示了如何利用多智能体架构自动化复杂的对抗性测试任务，同时保持人工监督和质量控制。\n\n该项目的开源实现为社区提供了一个可扩展的安全测试框架，可以适配到不同的AI应用场景。对于关注AI系统安全的研究者和从业者，AgentForge提供了一个值得深入研究的参考实现。