Zing 论坛

正文

NeuroScale Ops Agent:基于Splunk的Kubernetes MLOps自治运维智能体

一个GPT-4o驱动的自治运维智能体,通过Splunk MCP服务器和RAG运行手册,实现Kubernetes ML平台的实时监控、异常检测和自愈工作流,支持模型故障、策略违规和成本飙升三种场景的自动修复。

MLOpsKubernetesSplunk自治运维AIOps智能体RAGMCP自愈工作流KServe
发布时间 2026/06/07 07:42最近活动 2026/06/07 08:00预计阅读 5 分钟
NeuroScale Ops Agent:基于Splunk的Kubernetes MLOps自治运维智能体
1

章节 01

导读 / 主楼:NeuroScale Ops Agent:基于Splunk的Kubernetes MLOps自治运维智能体

一个GPT-4o驱动的自治运维智能体,通过Splunk MCP服务器和RAG运行手册,实现Kubernetes ML平台的实时监控、异常检测和自愈工作流,支持模型故障、策略违规和成本飙升三种场景的自动修复。

2

章节 02

原作者与来源

  • 原作者/维护者: Sodiq Jimoh (https://github.com/sodiq-code)
  • 来源平台: GitHub
  • 原始标题: neuroscale-ops-agent - Splunk Agentic Ops for Kubernetes/MLOps
  • 原始链接: https://github.com/sodiq-code/neuroscale-ops-agent
  • 发布时间: 2026年6月6日
  • 开源协议: MIT License
  • 比赛背景: Splunk Agentic Ops Hackathon 2026
  • 参赛赛道: Platform & Developer Experience
3

章节 03

项目背景与动机

在现代MLOps实践中,Kubernetes已成为部署机器学习模型的标准平台。然而,这种复杂性也带来了运维挑战:

  • 监控碎片化: 模型服务、成本、策略执行等数据分散在不同系统
  • 故障响应慢: 从发现问题到人工介入往往需要数分钟甚至更长
  • 知识孤岛: 运维知识存在于个人经验中,缺乏标准化和可传承
  • 成本失控: 资源过度配置和闲置导致云成本飙升

NeuroScale Ops Agent的诞生旨在解决这些问题。它基于一个核心理念:将Splunk作为"单一 pane of glass"(单一视图),让AI智能体基于实时数据和标准化运行手册自主运维。

4

章节 04

整体架构

K8s Cluster (k3d)
  ├── KServe (模型推理服务)
  ├── Kyverno (策略引擎)      ──► splunk-integration/k8s_to_splunk.py
  ├── OpenCost (成本监控)           (4线程,30秒间隔,HEC)
  └── ArgoCD (GitOps)                    │
                                    Splunk Index: neuroscale
                                    ├── 告警 (SPL阈值)
                                    └── MCP服务器 ──► agent/core.py (GPT-4o)
                                                           │
                                                ┌───────────┼───────────┐
                                                ▼           ▼           ▼
                                          runbook_rag  splunk_client  k8s_ops
                                                │           │           │
                                                └──── workflows/ ───────┘
                                                          │
                                                    ui/app.py (Streamlit)
5

章节 05

数据流

  1. 采集层: Kubernetes事件通过4线程并发方式实时流入Splunk(HTTP Event Collector)
  2. 存储层: Splunk的neuroscale索引统一存储模型、成本、策略、GitOps四类数据
  3. 分析层: SPL查询和Splunk告警识别异常模式
  4. 决策层: GPT-4o智能体通过MCP协议查询Splunk数据,结合RAG运行手册做出决策
  5. 执行层: 自动执行修复操作或提供人工审核建议
6

章节 06

1. 实时遥测采集

splunk-integration/k8s_to_splunk.py实现了高效的数据转发:

  • 并发设计: 4个并发线程处理不同类型的K8s事件
  • 采集间隔: 30秒轮询一次
  • 传输协议: Splunk HEC(HTTP Event Collector)
  • 数据结构化: 四类数据源分别标记:
    • neuroscale:models - KServe推理服务状态
    • neuroscale:costs - OpenCost成本数据
    • neuroscale:policies - Kyverno策略执行结果
    • neuroscale:argocd - ArgoCD同步状态
7

章节 07

2. SPL驱动的异常检测

系统利用Splunk强大的SPL(Search Processing Language)进行多维度监控:

监控场景 SPL查询示例 告警阈值
模型健康 index=neuroscale sourcetype=neuroscale:models 错误率>5%持续5分钟
成本异常 index=neuroscale sourcetype=neuroscale:costs 每小时>$50
策略违规 index=neuroscale sourcetype=neuroscale:policies BLOCK动作触发
GitOps状态 index=neuroscale sourcetype=neuroscale:argocd 同步失败
8

章节 08

3. MCP连接的智能体推理

项目深度集成Splunk MCP(Model Context Protocol)服务器:

  • 实时数据查询: 智能体在推理过程中可动态查询Splunk数据
  • 工具调用: 14个函数调用工具支持复杂工作流
  • 上下文感知: 每次决策都基于最新的集群状态