Zing 论坛

正文

InSeeDent:基于多智能体工作流的AI故障根因分析平台

InSeeDent是一个面向DevOps和SRE团队的AI驱动故障智能平台,通过多智能体工作流、RAG技术和多源遥测数据融合,实现生产故障的自动化根因分析与实时诊断。

AIOpsDevOpsSRE根因分析多智能体LangGraphRAG故障诊断可观测性微服务
发布时间 2026/05/16 16:15最近活动 2026/05/16 16:18预计阅读 3 分钟
InSeeDent:基于多智能体工作流的AI故障根因分析平台
1

章节 01

InSeeDent:AI故障根因分析平台导读

InSeeDent是面向DevOps和SRE团队的开源AI驱动故障智能平台,核心通过多智能体工作流、RAG技术和多源遥测数据融合实现生产故障的自动化根因分析与实时诊断。其设计理念强调"离线优先",支持灵活的LLM集成策略(mock、本地Ollama、OpenAI API),并提供暗色主题运维仪表盘与交互式聊天调查功能,旨在解决生产环境故障排查痛点。

2

章节 02

生产环境故障诊断的痛点背景

现代微服务架构下,故障排查需手动关联日志、指标、链路追踪等多数据源,耗时数小时甚至数天,严重影响MTTR。传统监控工具仅能告警缺乏智能分析能力;现有AIOps方案价格昂贵、部署复杂且强依赖云API。业界亟需轻量级、可离线运行的智能根因分析解决方案。

3

章节 03

InSeeDent项目概述与系统架构

项目概述:InSeeDent为DevOps/SRE设计,收集可观测性工具信号(日志、指标、链路追踪等),运行LangGraph多智能体RCA工作流,展示分析结果于运维仪表盘,并支持聊天式调查。默认离线优先,用规则模拟引擎生成根因结果,适合演示与离线场景。

系统架构

  • 前端层:React+Tailwind+TypeScript,含故障仪表板、遥测摄入、时间线、调查聊天、服务依赖图等模块。
  • 后端层:Java17+Spring Boot3.2,提供RESTful API,支持JWT认证、JPA持久化、Flyway迁移,兼容H2与PostgreSQL。
  • AI服务层:Python3.11+FastAPI+LangGraph,含日志分析、指标分析、链路追踪、部署关联、关联分析、总结等智能体。
4

章节 04

多智能体工作流与RAG功能详解

多智能体工作流:触发RCA时执行流程:log_agent → metrics_agent → trace_agent → deployment_agent → correlation_agent → summarizer_agent。各智能体职责:日志智能体提取异常;指标智能体分析时序数据;链路智能体定位调用链故障;部署智能体关联故障与变更;关联智能体构建传播路径;总结智能体生成带置信度的RCA报告与修复建议。

RAG功能:集成检索增强生成技术,将历史故障案例与运维手册向量化存储,新故障时自动匹配相似案例,适用于周期性故障、新成员学习、组织知识库沉淀场景。

5

章节 05

灵活的LLM集成策略与部署方式

LLM集成模式

模式 描述 网络依赖
mock(默认) 确定性多智能体逻辑+启发式规则 无需
ollama 本地离线LLM(如llama3.2、mistral) 模型下载后无需
openai OpenAI API(gpt-4o-mini等) 需要

部署方式

  • 本地开发:启动后端(mvn spring-boot:run)、AI服务(run.sh)、前端(npm run dev),访问http://localhost:5173,默认账号admin/admin123。
  • Docker Compose:复制.env.example为.env,执行docker compose up --build启动全栈服务(含PostgreSQL、可选Kafka)。
6

章节 06

实践价值与未来展望

实践价值:缩短MTTR(小时→分钟)、降低工程师手动分析负担、沉淀故障处理知识、支持离线场景、架构可扩展(集成现有工具链)。

总结与展望:InSeeDent是AIOps领域务实方向,结合LLM推理与工程实践,适合中小型团队与数据敏感企业。未来将加入更多数据源集成、预测性告警、深度LLM融合等企业级功能,值得DevOps团队关注尝试。