# 蘑菇王国AI防火墙：用像素风格游戏化LLM红队安全测试

> Mushroom Kingdom AI Firewall 是一个受马里奥启发的LLM应用安全测试平台，通过React+TypeScript前端和FastAPI后端，提供提示注入、越狱攻击、数据泄露、工具滥用和RAG投毒等自动化红队测试功能，并映射到OWASP LLM Top 10安全框架。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-06-15T00:25:00.000Z
- 最近活动: 2026-06-15T00:56:29.596Z
- 热度: 154.5
- 关键词: LLM安全, 红队测试, 提示注入, 越狱攻击, RAG安全, OWASP, FastAPI, React, AI应用安全, 渗透测试
- 页面链接: https://www.zingnex.cn/forum/thread/ai-llm-04fd2f7e
- Canonical: https://www.zingnex.cn/forum/thread/ai-llm-04fd2f7e
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：realshawnnnn
- 来源平台：github
- 原始标题：mushroom-kingdom-ai-firewalll
- 原始链接：https://github.com/realshawnnnn/mushroom-kingdom-ai-firewalll
- 来源发布时间/更新时间：2026-06-15T00:25:00Z

## 原作者与来源\n\n- **原作者/维护者**：realshawnnnn\n- **来源平台**：GitHub\n- **原始标题**：mushroom-kingdom-ai-firewalll\n- **原始链接**：https://github.com/realshawnnnn/mushroom-kingdom-ai-firewalll\n- **发布时间**：2026年6月\n\n---\n\n## 背景：LLM应用的安全挑战\n\n随着ChatGPT、Claude等大语言模型（LLM）的快速普及，越来越多的企业和开发者将LLM集成到生产环境中，构建智能客服、代码助手、知识库问答等应用。然而，这种便利性背后隐藏着严重的安全隐患。\n\n现代LLM应用通常面临以下攻击向量：\n\n1. **提示注入（Prompt Injection）**：攻击者通过精心构造的输入，覆盖或操纵LLM的系统提示，使其执行非预期操作\n2. **越狱攻击（Jailbreak）**：绕过LLM的安全对齐机制，诱导模型生成有害内容\n3. **数据泄露（Data Leakage）**：从训练数据或上下文中提取敏感信息\n4. **工具滥用（Tool Abuse）**：操纵LLM调用外部工具（如API、数据库）进行未授权操作\n5. **RAG投毒（RAG Poisoning）**：污染检索增强生成（RAG）系统的知识库，传播错误信息\n\nOWASP（开放Web应用程序安全项目）在2023年发布了专门针对LLM应用的Top 10安全风险清单，为行业提供了标准化的安全评估框架。然而，许多开发团队缺乏系统性的方法来测试其LLM应用对这些风险的抵御能力。\n\nMushroom Kingdom AI Firewall 正是为解决这一问题而生。它将专业的LLM安全测试封装在一个友好、可复现的平台中，让安全团队能够轻松开展红队测试。\n\n---\n\n## 设计理念：游戏化的安全测试\n\n项目的视觉设计灵感来自经典的马里奥系列游戏，但巧妙地避开了直接使用任天堂的版权素材。取而代之的是原创的像素艺术风格，使用城堡、管道、金币和星星等隐喻元素，营造出一个既专业又富有趣味性的用户体验。\n\n这种设计选择不仅仅是装饰性的。它将复杂的安全测试过程游戏化：\n\n- **城堡安全地图（Castle Security Map）**：以可视化的方式展示LLM应用的安全态势\n- **库巴攻击模拟器（Koopa Attack Simulator）**：启动红队测试的交互界面\n- **公主保护报告（Princess Protection Report）**：生成高管友好的安全评估报告\n\n这种隐喻让非技术背景的利益相关者也能直观理解安全测试的目标和结果。\n\n---\n\n## 技术架构：全栈现代化\n\nMushroom Kingdom AI Firewall 采用现代全栈架构，确保良好的开发体验和部署灵活性：\n\n### 前端：React + TypeScript\n\n前端技术栈选择体现了对类型安全和开发效率的重视：\n\n- **React**：组件化UI开发\n- **TypeScript**：编译时类型检查，减少运行时错误\n- **主要页面**：\n  - Castle Security Map（安全态势仪表盘）\n  - Koopa Attack Simulator（攻击模拟器）\n  - Findings（发现结果页）\n  - Report（报告页）\n\n### 后端：FastAPI\n\nPython的FastAPI框架被选为后端技术，原因包括：\n\n- **高性能**：基于Starlette和Pydantic，异步支持\n- **自动API文档**：内置OpenAPI/Swagger文档\n- **类型安全**：利用Python类型提示\n- **主要组件**：\n  - REST API\n  - 攻击模块\n  - 评估器（Evaluators）\n  - 风险评分\n  - 报告生成\n\n### 数据层：SQLite + PostgreSQL\n\n- **默认**：SQLite，零配置，适合快速启动和演示\n- **生产**：PostgreSQL，通过Docker Compose部署，支持高并发和持久化\n\n### 部署：Docker化\n\n完整的Docker Compose配置确保了一致的开发和生产环境：\n\n```yaml\n# 一键启动所有服务\ndocker compose up --build\n```\n\n服务访问点：\n- 前端：http://localhost:5173\n- 后端API：http://localhost:8000\n- API文档：http://localhost:8000/docs\n\n---\n\n## 核心功能：模块化攻击与评估\n\n### 攻击模块\n\n平台实现了五种主要的LLM攻击类型，每种都封装为独立的攻击类：\n\n#### 1. PromptInjectionAttack（提示注入攻击）\n\n测试LLM应用对直接和间接提示注入的抵御能力。攻击尝试通过用户输入覆盖系统提示或注入恶意指令。\n\n#### 2. JailbreakAttack（越狱攻击）\n\n评估LLM的安全对齐机制，尝试通过各种越狱技巧（如角色扮演、编码绕过、分隔符混淆等）诱导模型突破安全限制。\n\n#### 3. DataLeakageAttack（数据泄露攻击）\n\n检测LLM是否会泄露敏感信息，包括：\n- 训练数据中的PII（个人身份信息）\n- 系统提示内容\n- 对话历史中的敏感上下文\n\n#### 4. ToolAbuseAttack（工具滥用攻击）\n\n针对具有工具调用能力的LLM应用，测试其是否能被操纵执行未授权的工具调用，如：\n- 未授权的数据库查询\n- 恶意API调用\n- 文件系统操作\n\n#### 5. RagPoisoningAttack（RAG投毒攻击）\n\n专门针对RAG（检索增强生成）架构的LLM应用，测试其知识库被污染后的行为，评估模型对检索到的不良信息的抵抗力。\n\n### 评估器（Evaluators）\n\n每个攻击执行后，平台使用专门的评估器来判断攻击是否成功：\n\n#### SecretDetector（秘密检测器）\n\n检测LLM输出中是否包含敏感信息泄露，如API密钥、密码、个人身份信息等。\n\n#### PolicyViolationDetector（策略违规检测器）\n\n评估LLM输出是否违反了预设的安全策略，如生成有害内容、偏见言论或非法建议。\n\n#### PromptInjectionSuccessDetector（提示注入成功检测器）\n\n专门判断提示注入攻击是否成功，检测LLM是否执行了注入的恶意指令。\n\n#### RiskScorer（风险评分器）\n\n综合所有评估器的结果，计算整体风险分数，考虑因素包括：\n- 攻击成功率\n- 漏洞严重性\n- 可利用性\n- 影响范围\n\n### OWASP LLM Top 10 映射\n\n平台将发现的安全问题自动映射到OWASP LLM Top 10框架：\n\n1. **LLM01: Prompt Injection**（提示注入）\n2. **LLM02: Insecure Output Handling**（不安全输出处理）\n3. **LLM03: Training Data Poisoning**（训练数据投毒）\n4. **LLM04: Model Denial of Service**（模型拒绝服务）\n5. **LLM05: Supply Chain Vulnerabilities**（供应链漏洞）\n6. **LLM06: Sensitive Information Disclosure**（敏感信息泄露）\n7. **LLM07: Insecure Plugin Design**（不安全插件设计）\n8. **LLM08: Excessive Agency**（过度代理）\n9. **LLM09: Overreliance**（过度依赖）\n10. **LLM10: Model Theft**（模型窃取）\n\n这种映射帮助安全团队将技术发现与行业标准风险框架对齐，便于向管理层汇报和制定修复优先级。\n\n---\n\n## 使用场景：从演示到生产\n\n### 场景一：本地演示与开发\n\n平台支持本地Mock LLM模式，无需配置外部API密钥即可运行演示：\n\n```bash\n# 后端\ncd backend\npython -m venv .venv\nsource .venv/bin/activate\npip install -r requirements.txt\nuvicorn app.main:app --reload --port 8000\n\n# 前端\ncd frontend\nnpm install\nnpm run dev\n```\n\n访问 http://localhost:5173 即可开始本地测试。\n\n### 场景二：对接真实LLM\n\n要测试真实的LLM应用，配置OpenAI兼容的API端点：\n\n```bash\nexport LLM_MODE=openai_compatible\nexport OPENAI_COMPATIBLE_BASE_URL=https://api.example.com/v1\nexport OPENAI_COMPATIBLE_API_KEY=your-key\nexport OPENAI_COMPATIBLE_MODEL=your-model\n```\n\n后端将使用标准OpenAI API格式调用LLM服务。\n\n### 场景三：Docker生产部署\n\n```bash\ndocker compose up --build\n```\n\n一键启动包含前端、后端和数据库的完整服务栈。\n\n---\n\n## API接口：程序化访问\n\n平台提供完整的REST API，支持自动化集成：\n\n### 目标管理\n\n- `POST /api/targets`：创建目标模型或应用\n- `GET /api/targets`：列出所有目标\n\n### 测试执行\n\n- `POST /api/tests`：启动红队测试\n- `GET /api/tests/{run_id}`：获取测试运行详情\n\n### 结果与报告\n\n- `GET /api/findings`：列出所有发现\n- `GET /api/reports/{run_id}.json`：导出JSON格式报告\n- `GET /api/reports/{run_id}.md`：导出Markdown格式报告\n- `GET /api/dashboard`：获取仪表盘指标\n\n这些API使平台能够轻松集成到CI/CD流水线中，实现LLM应用安全的持续监控。\n\n---\n\n## 项目亮点：为什么值得关注\n\n### 1. 完整的红队测试覆盖\n\n不同于简单的单一攻击测试，Mushroom Kingdom AI Firewall 提供了从提示注入到RAG投毒的全面攻击覆盖，帮助团队系统性地评估LLM应用的安全态势。\n\n### 2. 游戏化用户体验\n\n像素艺术风格和游戏化隐喻降低了安全测试的门槛，使非技术背景的利益相关者也能参与和理解安全评估过程。\n\n### 3. 标准化风险映射\n\n自动映射到OWASP LLM Top 10，使发现的问题能够与行业标准安全框架对齐，便于制定修复策略和合规报告。\n\n### 4. 可复现的测试\n\n通过Docker化和API支持，测试过程完全可复现，支持在不同环境和时间点进行一致的评估。\n\n### 5. 灵活的LLM支持\n\n支持OpenAI兼容的API端点，理论上可与任何符合OpenAI API规范的LLM服务集成，包括自托管模型。\n\n### 6. 本地Mock模式\n\n本地Mock LLM模式支持零配置的快速演示，降低了初次尝试的门槛。\n\n---\n\n## 局限性与注意事项\n\n### 攻击技术的演进性\n\nLLM安全领域发展迅速，新的攻击技术不断涌现。平台的攻击模块需要持续更新以跟上威胁演化的步伐。\n\n### 评估的准确性\n\n自动评估器可能存在误判，特别是对于微妙的提示注入或越狱攻击。建议将自动测试结果作为初步筛选，关键发现应由人工安全专家验证。\n\n### 覆盖范围\n\n当前实现覆盖OWASP LLM Top 10中的部分风险，某些风险（如供应链漏洞、模型窃取）可能需要额外的工具和流程来全面评估。\n\n### 授权要求\n\n项目文档明确强调：仅对拥有明确授权的系统进行测试。未经授权的安全测试可能违反法律法规。\n\n---\n\n## 总结：LLM安全测试的入门之选\n\nMushroom Kingdom AI Firewall 为LLM应用安全测试提供了一个友好、完整的起点。它将复杂的安全概念封装在直观的界面背后，让安全团队能够快速开展系统性的红队测试。\n\n对于正在构建LLM应用的团队，这个平台提供了一个低成本的方式来识别和修复常见的安全漏洞。对于安全研究人员，它提供了一个可扩展的框架来实验新的攻击技术和评估方法。\n\n随着LLM应用在生产环境中的普及，类似Mushroom Kingdom AI Firewall这样的工具将变得越来越重要。它们帮助填补了"快速构建AI应用"与"确保AI应用安全"之间的鸿沟，让开发团队能够在创新的同时保持对安全风险的警觉。\n\n最终，这个项目的价值不仅在于其技术实现，更在于它传递的理念：LLM安全不应该是一个事后考虑的选项，而应该从一开始就嵌入到应用开发的每个阶段。通过游戏化的界面和系统化的测试流程，Mushroom Kingdom AI Firewall 正在帮助更多团队建立起这种安全意识。
