正文

NeuroScale Ops Agent：基于Splunk的Kubernetes MLOps自治运维智能体

一个GPT-4o驱动的自治运维智能体，通过Splunk MCP服务器和RAG运行手册，实现Kubernetes ML平台的实时监控、异常检测和自愈工作流，支持模型故障、策略违规和成本飙升三种场景的自动修复。

MLOpsKubernetesSplunk自治运维AIOps智能体RAGMCP自愈工作流KServe

发布时间 2026/06/07 07:42最近活动 2026/06/07 08:00预计阅读 5 分钟

章节 01

导读 / 主楼：NeuroScale Ops Agent：基于Splunk的Kubernetes MLOps自治运维智能体

章节 02

原作者与来源

原作者/维护者： Sodiq Jimoh (https://github.com/sodiq-code)
来源平台： GitHub
原始标题： neuroscale-ops-agent - Splunk Agentic Ops for Kubernetes/MLOps
原始链接： https://github.com/sodiq-code/neuroscale-ops-agent
发布时间： 2026年6月6日
开源协议： MIT License
比赛背景： Splunk Agentic Ops Hackathon 2026
参赛赛道： Platform & Developer Experience

章节 03

项目背景与动机

在现代MLOps实践中，Kubernetes已成为部署机器学习模型的标准平台。然而，这种复杂性也带来了运维挑战：

监控碎片化： 模型服务、成本、策略执行等数据分散在不同系统
故障响应慢： 从发现问题到人工介入往往需要数分钟甚至更长
知识孤岛： 运维知识存在于个人经验中，缺乏标准化和可传承
成本失控： 资源过度配置和闲置导致云成本飙升

NeuroScale Ops Agent的诞生旨在解决这些问题。它基于一个核心理念：将Splunk作为"单一 pane of glass"（单一视图），让AI智能体基于实时数据和标准化运行手册自主运维。

章节 04

整体架构

K8s Cluster (k3d)
  ├── KServe (模型推理服务)
  ├── Kyverno (策略引擎)      ──► splunk-integration/k8s_to_splunk.py
  ├── OpenCost (成本监控)           (4线程，30秒间隔，HEC)
  └── ArgoCD (GitOps)                    │
                                    Splunk Index: neuroscale
                                    ├── 告警 (SPL阈值)
                                    └── MCP服务器 ──► agent/core.py (GPT-4o)
                                                           │
                                                ┌───────────┼───────────┐
                                                ▼           ▼           ▼
                                          runbook_rag  splunk_client  k8s_ops
                                                │           │           │
                                                └──── workflows/ ───────┘
                                                          │
                                                    ui/app.py (Streamlit)

章节 05

数据流

采集层： Kubernetes事件通过4线程并发方式实时流入Splunk（HTTP Event Collector）
存储层： Splunk的neuroscale索引统一存储模型、成本、策略、GitOps四类数据
分析层： SPL查询和Splunk告警识别异常模式
决策层： GPT-4o智能体通过MCP协议查询Splunk数据，结合RAG运行手册做出决策
执行层： 自动执行修复操作或提供人工审核建议

章节 06

1. 实时遥测采集

splunk-integration/k8s_to_splunk.py实现了高效的数据转发：

并发设计： 4个并发线程处理不同类型的K8s事件
采集间隔： 30秒轮询一次
传输协议： Splunk HEC（HTTP Event Collector）
数据结构化： 四类数据源分别标记：
- neuroscale:models - KServe推理服务状态
- neuroscale:costs - OpenCost成本数据
- neuroscale:policies - Kyverno策略执行结果
- neuroscale:argocd - ArgoCD同步状态

章节 07

2. SPL驱动的异常检测

系统利用Splunk强大的SPL（Search Processing Language）进行多维度监控：

监控场景	SPL查询示例	告警阈值
模型健康	`index=neuroscale sourcetype=neuroscale:models`	错误率>5%持续5分钟
成本异常	`index=neuroscale sourcetype=neuroscale:costs`	每小时>$50
策略违规	`index=neuroscale sourcetype=neuroscale:policies`	BLOCK动作触发
GitOps状态	`index=neuroscale sourcetype=neuroscale:argocd`	同步失败