# DevOps AI Workflows：为运维工程师打造的智能助手工作流集合

> 一套面向DevOps/SRE的AI智能体工作流集合，涵盖Kubernetes调试、AWS审计、Terraform审查、CI/CD故障排查等20+场景，支持Claude Code、Cursor、Windsurf等主流AI编程工具。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-03T01:14:02.000Z
- 最近活动: 2026-06-03T01:18:40.401Z
- 热度: 167.9
- 关键词: DevOps, SRE, AI工作流, Kubernetes, AWS, Terraform, CI/CD, Claude Code, 运维自动化, 故障排查, 云原生, 基础设施即代码
- 页面链接: https://www.zingnex.cn/forum/thread/devops-ai-workflows
- Canonical: https://www.zingnex.cn/forum/thread/devops-ai-workflows
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**: 23seriy
- **来源平台**: GitHub
- **原始标题**: devops-ai-workflows
- **原始链接**: https://github.com/23seriy/devops-ai-workflows
- **发布时间**: 2026年6月3日

---

## 项目概述

在日常的DevOps和SRE工作中，工程师们经常需要面对重复性高但复杂度不低的问题排查任务。从Kubernetes集群故障诊断到AWS成本优化，从Terraform变更审查到CI/CD流水线调试，这些任务不仅需要深厚的领域知识，还需要快速而准确的执行能力。

`devops-ai-workflows` 项目应运而生，它是一套精心策划的AI智能体工作流集合，专为DevOps/SRE场景设计。该项目将常见的运维任务封装成结构化的提示词和规则集，让AI助手能够在Claude Code、Cursor、Windsurf等工具中直接调用，大幅提升运维效率。

---

## 核心架构与设计理念

该项目采用了模块化的设计理念，将不同类型的运维任务分类整理，形成清晰的目录结构：

### 工作流定义（.claude/commands/）

这是项目的核心部分，包含20多个可直接作为Claude Code斜杠命令调用的工作流定义。每个工作流都是一个Markdown文件，详细描述了任务目标、执行步骤和输出格式。例如 `/k8s-debug` 命令可以执行全面的Kubernetes集群诊断，而 `/aws-cost-quickscan` 则专注于AWS成本浪费的发现。

### 可复用提示词（prompts/）

存放通用的系统和任务提示词，涵盖事件分类、代码审查、事后复盘等场景。这些提示词不依赖于特定工具，可以在任何支持自定义提示词的LLM中使用。

### 安全规则集（rules/）

提供可复用的安全检查规则，可以通过CLAUDE.md文件引用到Claude Code中，确保AI在执行任务时遵循安全最佳实践。

### 独立脚本（scripts/）

包含工作流中引用的独立Shell脚本，方便在没有AI工具的环境中直接使用。

---

## 工作流分类详解

### Kubernetes生态工作流

Kubernetes是现代云原生应用的核心编排平台，但其复杂性也带来了诸多运维挑战。该项目提供了7个专门的K8s工作流：

**k8s-debug**：通用的只读集群诊断工具，覆盖节点状态、Pod健康、工作负载分布、网络连通性、存储挂载、RBAC配置、事件日志和资源压力等多个维度。执行一次完整的集群体检，帮助快速定位问题根源。

**k8s-workload-debug**：针对单个Deployment、StatefulSet、DaemonSet或Pod的深度诊断。分析滚动更新状态、探针配置、资源配额、日志输出、网络策略和配置挂载，适合排查特定应用的异常行为。

**k8s-rbac-audit**：RBAC安全审计工作流，识别通配符权限、cluster-admin绑定、高风险动词/资源组合、过度授权的ServiceAccount以及匿名访问配置，帮助加固集群安全。

**k8s-cost-hotspots**：成本优化专用工具，发现过度配置的工作负载、缺失资源请求/限制的空闲Pod、孤儿PVC/PV、闲置的LoadBalancer等浪费点。

**k8s-upgrade-readiness**：升级前的预检工作流，检查已弃用的API、版本偏差、PodDisruptionBudget缺口、即将过期的证书和损坏的Webhook配置。

**helm-release-debug** 和 **helm-chart-review**：专门针对Helm生态的调试和审查工具，可以诊断卡住的发布、比较values差异、审查Chart的安全性和可靠性。

### AWS云服务工作流

对于使用AWS的云架构，项目提供了4个实用的审计和调试工作流：

**aws-account-audit**：全面的只读AWS账户安全审计，覆盖IAM策略、S3存储桶、EC2实例、RDS数据库、CloudTrail日志、加密配置、GuardDuty和安全中心状态。

**aws-cost-quickscan**：成本浪费扫描器，识别闲置的EC2/RDS实例、未挂载的EBS卷、过期快照、昂贵的日志组、NAT数据处理费用以及缺失的Savings Plans。

**aws-vpc-debug**：VPC网络连通性诊断工具，追踪安全组、网络ACL、路由表、NAT/IGW/TGW、VPC终端节点、DNS解析和流日志的完整路径。

**aws-iam-policy-review**：IAM策略风险分析器，标记管理员等效权限、权限提升路径、通配符操作和缺失的条件约束。

### 基础设施即代码（IaC）工作流

**terraform-plan-review**：Terraform计划审查工具，解释变更计划并标记风险操作，如资源销毁、替换、安全组变更、IAM修改和爆炸半径评估。这对于在应用变更前识别潜在问题至关重要。

### 容器与CI/CD工作流

**ci-debug**：支持Jenkins、GitHub Actions、GitLab CI和Bitbucket Pipelines的通用CI/CD故障诊断工具，解析构建日志并进行根因分析。

**jenkins-pipeline-review**：专门审查Jenkinsfile和共享库Groovy代码，识别安全风险、反模式、缺失的错误处理、凭据泄露和CPS问题。

**dockerfile-review**：Dockerfile安全审查工具，标记存在CVE的基础镜像、泄露的密钥、缺失的健康检查，并提供镜像大小和构建缓存优化建议。

**release-checklist**：发布前的安全检查清单，涵盖范围确认、部署顺序、回滚方案、测试覆盖、监控配置和沟通计划。

### 安全与可观测性工作流

**secrets-leak-scan**：使用gitleaks、trufflehog或正则表达式扫描Git仓库历史中的泄露密钥，包括API密钥、密码、令牌和私钥。

**repo-health**：仓库健康度审计，检查README完整性、许可证配置、CI集成、分支/发布管理、跟踪的密钥、代码所有权和自动化缺口。

**incident-triage**：事件分类工作流，帮助SRE团队快速评估事件严重程度、影响范围和下一步行动。

---

## 使用方式与集成

该项目的最大优势在于其广泛的工具兼容性。工作流定义采用标准Markdown格式，提示词使用自然语言描述，规则集采用结构化格式，这意味着它们不仅可以在Claude Code中使用，也可以轻松迁移到Cursor、Windsurf或其他支持自定义提示词的AI工具。

对于Claude Code用户，只需将项目克隆到工作目录，系统会自动识别 `.claude/commands/` 目录下的所有工作流作为斜杠命令。用户可以通过 `/k8s-debug` 这样的简单命令触发复杂的诊断流程，AI会自动按照预定义的步骤执行并生成结构化报告。

对于其他AI工具，可以直接复制 `prompts/` 目录中的提示词内容，或参考 `rules/` 中的安全检查清单。

---

## 实际应用场景

想象一个典型的生产故障场景：某个微服务的Pod反复重启，影响了线上业务。传统的排查流程可能需要工程师手动执行 `kubectl describe pod`、检查日志、查看事件、分析资源使用、验证网络策略等一系列操作。

而使用 `devops-ai-workflows` 的 `/k8s-workload-debug` 工作流，工程师只需一条命令，AI就会自动执行完整的诊断流程，包括：

1. 获取Pod的详细状态和事件
2. 检查容器日志中的错误信息
3. 分析资源请求和限制配置
4. 验证探针配置是否合理
5. 检查存储卷挂载状态
6. 审查网络策略和DNS解析
7. 生成结构化的诊断报告

整个过程从原来的数十分钟缩短到几分钟，且不易遗漏关键检查点。

---

## 项目价值与意义

`devops-ai-workflows` 项目的价值不仅在于提供了现成的提示词模板，更在于它代表了一种新的运维工作模式——将领域专家的经验沉淀为可复用的AI工作流。

对于初级工程师，这些工作流提供了结构化的学习路径，帮助他们快速掌握复杂的运维技能。对于资深工程师，工作流自动化了重复性任务，让他们能专注于更有价值的工作。对于团队而言，统一的工作流确保了排查过程的一致性和完整性，减少了因个人经验差异导致的问题。

此外，该项目采用MIT许可证开源，社区可以持续贡献新的工作流和改进现有方案，形成良性循环。

---

## 总结与展望

`devops-ai-workflows` 是AI辅助运维领域的一个优秀范例，展示了如何将LLM的能力与具体的DevOps场景深度结合。随着AI技术的不断发展，我们可以预见这类工作流集合会越来越丰富，覆盖更多的云服务、更多的排查场景、更复杂的架构模式。

对于正在使用或计划使用AI工具辅助运维工作的团队，该项目提供了一个极佳的起点。建议从最常用的场景开始尝试，逐步将AI工作流融入日常运维实践，最终形成人机协作的高效运维模式。