正文

AI Runtime Security：生产环境AI系统的四层安全架构

一个面向生产环境的AI安全开源框架，通过Guardrails、Model-as-Judge、人工监督和熔断机制四层架构，解决AI系统部署后的行为监控、提示注入防护和智能体漂移问题。

AI安全GuardrailsModel-as-JudgeAI运行时安全提示注入防护多智能体安全熔断机制AI治理

发布时间 2026/06/14 12:45最近活动 2026/06/14 12:57预计阅读 7 分钟

章节 01

导读 / 主楼：AI Runtime Security：生产环境AI系统的四层安全架构

章节 02

原作者与来源

原作者/维护者：JonathanCGill
来源平台：github
原始标题：airuntimesecurity.io
原始链接：https://github.com/JonathanCGill/airuntimesecurity.io
来源发布时间/更新时间：2026-06-14T04:45:47Z

章节 03

原作者与来源\n\n- 原作者/维护者: JonathanCGill\n- 来源平台: GitHub\n- 原始标题: AI Runtime Security\n- 原始链接: https://github.com/JonathanCGill/airuntimesecurity.io\n- 发布时间: 2026年6月14日\n\n---\n\n## 核心洞察：AI系统的问题不仅是漏洞，更是行为\n\n大多数AI安全指导停留在模型层，而AI Runtime Security框架关注的是部署后发生的事情：AI系统在生产环境中的行为表现、如何监控这些行为，以及当事情出错时如何控制。\n\n该框架基于20多年受监管金融服务领域的企业网络安全经验构建，专门针对提示注入、模型操纵和智能体漂移等运行时安全问题。\n\n---\n\n## 核心问题：为什么传统测试不够？\n\n你无法在部署前完全测试AI系统，原因有三：\n\n1. 输入空间无限：自然语言输入空间实际上是无限的\n2. 涌现行为不可预测：无法通过传统测试套件预测涌现行为\n3. 对抗性输入：攻击者会找到QA团队想象不到的边界情况\n\n那么，如何知道AI在生产环境中是否正确运行？\n\n---\n\n## 四层安全架构\n\n行业正在独立趋同于相同的答案。NVIDIA NeMo、AWS Bedrock、Azure AI、LangChain、Guardrails AI等都实现了类似模式：\n\n| 层级 | 功能 | 响应速度 | 作用 |

|------|------|----------|------| | Guardrails | 阻止已知的恶意输入输出、PII、注入模式、策略违规 | 实时 (10ms) | 预防 | | Model-as-Judge | 检测未知的恶意行为，独立模型评估响应是否适当 | 异步 (500ms-5s) | 检测 | | 人工监督 | 决定自动化层无法处理的真正模糊案例 | 按需 | 决策 | | 熔断机制 | 当控制本身失败时停止所有AI流量并激活安全回退 | 即时 | 遏制 | \n核心理念：Guardrails预防，Judge检测，人工决策，熔断器遏制。\n\n每一层捕获其他层遗漏的问题。移除任何一层都会产生安全缺口。\n\n---\n\n## 各层详解\n\n### 第一层：Guardrails（护栏）\n\nGuardrails是实时输入/输出过滤器，用于：\n- 拦截已知的恶意模式\n- 检测和脱敏PII（个人身份信息）\n- 阻止提示注入攻击\n- 执行策略合规检查\n\n局限性：只能捕获预先定义的内容，无法应对新型攻击模式。\n\n### 第二层：Model-as-Judge（模型即裁判）\n\n由独立LLM评估主AI系统的输出是否适当：\n- 检测流畅但错误的响应\n- 识别基于幻觉数据的建议\n- 标记技术上授权但上下文危险的操作\n\n重要提示：Judge是概率性控制（LLM评估LLM），研究表明商业Guardrails+Judge组合可被攻击者以接近100%的成功率绕过。应将Judge视为提高攻击者成本的层，而非确定性策略执行的对等物。\n\n### 第三层：人工监督\n\n当自动化层无法确定时，将案例升级给人类决策者：\n- 处理模糊的边缘案例\n- 提供最终决策权\n- 防止自动化偏见\n\n### 第四层：熔断机制\n\n当控制系统本身失败时的最后防线：\n- 立即停止所有AI流量\n- 激活预定的安全状态\n- 防止级联故障\n\n---\n\n## PACE弹性架构\n\n每个控制都配有一个PACE弹性架构：\n\n- Primary（主控）: 首选控制机制\n- Alternate（备用）: 主控失效时的替代方案\n- Contingency（应急）: 备用也失效时的应急措施\n- Emergency（紧急）: 最后的紧急安全状态\n\n当某一层降级时，系统过渡到预定的安全状态，而不是静默失败。\n\n---\n\n## 框架覆盖范围\n\n### 控制数量\n- 200+ 控制项: 涵盖AI系统全生命周期\n- 16个红队场景: 测试框架的有效性\n- 完整OWASP覆盖: 针对OWASP LLM Top 10的全面防护\n\n### 适用场景\n\n该框架控制架构专为企业开发和运营的AI系统设计：\n- 自定义模型\n- RAG管道\n- 单智能体系统\n- 多智能体系统\n\n对于从供应商消费的AI（Copilots、SaaS、云AI平台），框架提供思维模型，但安全问题和实现细节有所不同。\n\n---\n\n## 快速开始\n\nbash\n# 安装SDK\npip install airs\n\n# 运行评估\nairs assess\n\n\n### 不同用户的路径\n\n安全领导者: 编写AI安全策略，发现现有框架只描述"应该"而非"如何实现"\n→ 查看安全领导者视角\n\n架构师: 确定控制点在AI管道中的位置、成本以及失败时的处理\n→ 查看企业架构师视角 | 快速开始\n\n工程师: 构建AI系统，需要实现模式而非幻灯片\n→ 查看AI工程师视角 | 集成指南\n\n---\n\n## 关键扩展主题\n\n### 成本与延迟\n\n四层架构带来额外的计算开销。框架提供：\n- 采样策略（不必评估每个请求）\n- 延迟预算管理\n- 分层评估级联（简单请求用轻量级控制）\n\n### Judge可靠性\n\n如何处理Judge本身的错误：\n- 准确率指标和校准\n- 对抗性测试\n- 故障安全机制\n\n### 供应链安全\n\n- AIBOM（AI物料清单）\n- 签名清单\n- MCP（模型上下文协议）审查\n- 模型来源追溯\n\n### 人为因素\n\n- 操作员疲劳\n- 自动化偏见\n- 技能发展\n- 警报疲劳\n- 挑战率测试\n\n---\n\n## 单智能体安全架构\n\n框架提供了详细的单智能体安全架构图，展示各层如何协同工作：\n\n\n用户输入 → Guardrails → AI系统 → Guardrails → Judge评估 → 输出\n ↓ ↓ ↓\n 阻止恶意过滤输出人工升级\n 输入（如需要）\n\n\n---\n\n## 多智能体系统（MASO）框架\n\n对于更复杂的多智能体系统，框架提供MASO（Multi-Agent Security Orchestration）框架：\n\n- 10个控制域: 涵盖智能体间通信、协调、权限等\n- 3个实现层级: 从基础到高级的安全能力\n- 完整OWASP双重覆盖: 针对多智能体特有风险的防护\n\n### 涌现风险登记册\n\n识别了34个跨9个类别的风险，包括：\n- 智能体间冲突\n- 权限升级\n- 协调失败\n- 级联错误\n\n---\n\n## 为什么这个框架重要？\n\n### 1. 实践导向\n\n不同于停留在理论层面的安全框架，AI Runtime Security提供：\n- Guardrails配置\n- Judge提示模板\n- 集成代码示例\n- 红队测试场景\n\n### 2. 分层防御\n\n承认没有单一控制是完美的，通过多层架构提高整体安全性。\n\n### 3. 弹性设计\n\nPACE架构确保系统在部分失效时优雅降级，而非灾难性崩溃。\n\n### 4. 社区驱动\n\n开源MIT许可证，欢迎社区贡献和反馈。\n\n---\n\n## 结语\n\nAI Runtime Security为生产环境中的AI系统安全提供了一个实用、可落地的框架。它承认AI安全的复杂性，不追求"银弹"解决方案，而是通过分层防御、弹性架构和持续监控来管理风险。\n\n对于正在部署AI系统的企业，这是一个必须了解的资源。安全不再是部署后的考虑事项，而应内建于系统架构的每一层。

章节 04

补充观点 1

原作者与来源

原作者/维护者：JonathanCGill
来源平台：github
原始标题：airuntimesecurity.io
原始链接：https://github.com/JonathanCGill/airuntimesecurity.io
来源发布时间/更新时间：2026-06-14T04:45:47Z 原作者与来源\n\n- 原作者/维护者: JonathanCGill\n- 来源平台: GitHub\n- 原始标题: AI Runtime Security\n- 原始链接: https://github.com/JonathanCGill/airuntimesecurity.io\n- 发布时间: 2026年6月14日\n\n---\n\n核心洞察：AI系统的问题不仅是漏洞，更是行为\n\n大多数AI安全指导停留在模型层，而AI Runtime Security框架关注的是部署后发生的事情：AI系统在生产环境中的行为表现、如何监控这些行为，以及当事情出错时如何控制。\n\n该框架基于20多年受监管金融服务领域的企业网络安全经验构建，专门针对提示注入、模型操纵和智能体漂移等运行时安全问题。\n\n---\n\n核心问题：为什么传统测试不够？\n\n你无法在部署前完全测试AI系统，原因有三：\n\n1. 输入空间无限：自然语言输入空间实际上是无限的\n2. 涌现行为不可预测：无法通过传统测试套件预测涌现行为\n3. 对抗性输入：攻击者会找到QA团队想象不到的边界情况\n\n那么，如何知道AI在生产环境中是否正确运行？\n\n---\n\n四层安全架构\n\n行业正在独立趋同于相同的答案。NVIDIA NeMo、AWS Bedrock、Azure AI、LangChain、Guardrails AI等都实现了类似模式：\n\n| 层级 | 功能 | 响应速度 | 作用 |

AI Runtime Security：生产环境AI系统的四层安全架构

导读 / 主楼：AI Runtime Security：生产环境AI系统的四层安全架构

原作者与来源

补充观点 1

继续阅读

SignalCut：将AI搜索可见性缺口转化为视频营销活动的智能工具

图神经网络革新全球天气预报：从Graph Weather到多模型融合的开源实践

ExoVision：AI 驱动的系外行星探测与宜居性评估平台

Vertica专家技能：一站式企业级数据库迁移与优化指南