# InSeeDent：基于多智能体工作流的AI故障根因分析平台

> InSeeDent是一个面向DevOps和SRE团队的AI驱动故障智能平台，通过多智能体工作流、RAG技术和多源遥测数据融合，实现生产故障的自动化根因分析与实时诊断。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-16T08:15:41.000Z
- 最近活动: 2026-05-16T08:18:48.806Z
- 热度: 145.9
- 关键词: AIOps, DevOps, SRE, 根因分析, 多智能体, LangGraph, RAG, 故障诊断, 可观测性, 微服务
- 页面链接: https://www.zingnex.cn/forum/thread/inseedent-ai
- Canonical: https://www.zingnex.cn/forum/thread/inseedent-ai
- Markdown 来源: ingested_event

---

## 背景：生产环境故障诊断的痛点\n\n在现代微服务架构中，生产环境的故障排查一直是DevOps和SRE团队面临的最大挑战之一。当系统出现故障时，工程师需要同时查看日志、指标、链路追踪和部署记录等多个数据源，手动关联分析才能定位根因。这个过程往往耗时数小时甚至数天，严重影响系统的MTTR（平均修复时间）。\n\n传统的监控工具虽然能够发出告警，但缺乏智能分析能力，无法自动关联不同维度的遥测数据。而现有的AIOps解决方案往往价格昂贵、部署复杂，且对云API有强依赖。业界迫切需要一种既能离线运行、又能提供智能根因分析的轻量级解决方案。\n\n## InSeeDent项目概述\n\nInSeeDent是一个开源的AI驱动故障智能平台，专为DevOps和SRE团队设计。它通过收集来自可观测性工具的信号（日志、指标、链路追踪、告警、部署记录），运行基于LangGraph的多智能体根因分析（RCA）工作流，并在暗色主题的运维仪表盘中展示分析结果，支持基于聊天的交互式调查。\n\n项目的核心设计理念是"离线优先"——默认情况下不调用任何云API，而是使用基于规则的模拟引擎，从遥测数据模式中生成逼真的根因分析结果，非常适合演示和离线使用场景。\n\n## 系统架构与技术栈\n\nInSeeDent采用清晰的分层架构，由三个核心服务组成：\n\n### 1. 前端层（React + Tailwind）\n\n前端基于React 18和TypeScript构建，使用TailwindCSS进行样式设计，Recharts实现数据可视化。主要功能模块包括：\n\n- **故障仪表板**：列出、过滤和深入查看活跃的生产故障\n- **遥测数据摄入**：支持Prometheus、Loki、OpenTelemetry和Grafana的模拟适配器\n- **故障时间线**：按时间顺序展示告警、部署、指标峰值和链路错误\n- **调查聊天**：支持自然语言查询，如"为什么checkout-service失败了？"\n- **服务依赖图**：服务健康状况和依赖关系的可视化地图\n\n### 2. 后端层（Spring Boot + JWT）\n\n后端采用Java 17和Spring Boot 3.2构建，提供RESTful API服务，主要特性包括：\n\n- JWT身份验证机制\n- 基于JPA的数据持久化\n- Flyway数据库迁移\n- 支持H2（本地开发）和PostgreSQL（生产环境）\n\n### 3. AI服务层（FastAPI + LangGraph）\n\nAI服务是整个系统的智能核心，基于Python 3.11和FastAPI构建，使用LangGraph实现多智能体编排：\n\n- **日志分析智能体**：从日志数据中提取异常模式和错误信息\n- **指标分析智能体**：分析时序指标数据，识别异常峰值\n- **链路追踪智能体**：解析分布式追踪数据，定位服务调用链中的故障点\n- **部署关联智能体**：将故障与最近的代码部署关联\n- **关联分析智能体**：综合各维度数据，建立故障关联图谱\n- **总结智能体**：生成最终的根因分析报告和修复建议\n\n## 多智能体工作流详解\n\nInSeeDent的核心创新在于其多智能体协作工作流。当用户触发RCA分析时，系统按照以下流程执行：\n\n```\nlog_agent → metrics_agent → trace_agent → deployment_agent → correlation_agent → summarizer_agent\n```\n\n每个智能体都有特定的职责和领域知识：\n\n1. **日志智能体**首先分析应用日志，识别错误堆栈、异常信息和警告日志\n2. **指标智能体**并行分析CPU、内存、请求延迟等关键指标的时间序列数据\n3. **链路追踪智能体**检查分布式调用链，识别慢调用和失败调用\n4. **部署智能体**查询最近的代码部署记录，建立故障与变更的关联\n5. **关联智能体**综合前述分析结果，构建故障传播路径图\n6. **总结智能体**生成最终的RCA报告，包含置信度评分、根因描述和修复建议\n\n## RAG与相似故障检索\n\nInSeeDent集成了RAG（检索增强生成）技术，支持相似故障检索功能。系统会将历史故障案例和运维手册向量化存储，当新故障发生时，自动匹配相似的历史案例，帮助工程师快速参考过往的处理经验。\n\n这一功能特别适用于以下场景：\n- 周期性出现的相似故障模式\n- 新团队成员快速学习历史问题\n- 建立组织级的故障知识库\n\n## 灵活的LLM集成策略\n\nInSeeDent支持三种LLM运行模式，满足不同场景需求：\n\n| 模式 | 描述 | 网络依赖 |\n|------|------|----------|\n| mock（默认） | 确定性多智能体逻辑 + 启发式规则 | 无需网络 |\n| ollama | 本地离线LLM（如llama3.2、mistral） | 无需网络（模型下载后） |\n| openai | OpenAI API（gpt-4o-mini等） | 需要网络 |\n\n默认的mock模式使用基于规则的确定性逻辑，结合启发式规则生成RCA结果，非常适合离线演示和快速原型验证。当需要更强的语言理解能力时，可以切换到Ollama本地模型或OpenAI云端API。\n\n## 部署与使用\n\nInSeeDent提供多种部署方式：\n\n### 本地开发模式\n```bash\n# 终端1：启动后端（使用嵌入式H2数据库）\ncd backend && mvn spring-boot:run -Dspring-boot.run.profiles=local\n\n# 终端2：启动AI服务\ncd ai-service && chmod +x run.sh && ./run.sh\n\n# 终端3：启动前端\ncd frontend && npm install && npm run dev\n```\n\n访问 http://localhost:5173，使用默认账号 admin / admin123 登录。\n\n### Docker Compose全栈模式\n```bash\ncp .env.example .env\ndocker compose up --build\n```\n\n这将启动完整的服务栈，包括PostgreSQL数据库和可选的Kafka消息队列。\n\n## 实践意义与价值\n\nInSeeDent为DevOps和SRE团队带来了显著的价值：\n\n1. **缩短MTTR**：通过自动化根因分析，将故障定位时间从小时级缩短到分钟级\n2. **降低认知负担**：智能关联多源数据，减少工程师手动分析的工作量\n3. **知识沉淀**：RAG功能帮助团队积累和复用故障处理经验\n4. **离线可用**：不依赖云API，适合内网环境和数据敏感场景\n5. **可扩展架构**：模块化设计便于集成企业现有的可观测性工具链\n\n## 总结与展望\n\nInSeeDent代表了AIOps领域的一个务实方向——将大语言模型的推理能力与工程实践相结合，构建真正解决生产环境痛点的智能工具。其多智能体架构、灵活的LLM集成策略和对离线场景的友好支持，使其成为中小型团队和注重数据隐私企业的理想选择。\n\n随着项目的发展，未来可以期待更多企业级功能的加入，如更丰富的数据源集成、更智能的预测性告警、以及与大语言模型更深度的融合。对于正在探索AIOps实践的DevOps团队来说，InSeeDent无疑是一个值得关注和尝试的开源项目。
