# Miramar Platform：混合云AI平台的工程实践与架构设计

> 本文介绍Miramar Platform项目，一个结合本地DGX工作站与GCP云资源的混合AI平台。项目展示了如何通过Terraform、GKE、Workload Identity Federation和自托管GPU Runner构建可复现的MLOps工作流。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-08T16:16:10.000Z
- 最近活动: 2026-06-08T16:20:51.117Z
- 热度: 154.9
- 关键词: 混合云AI平台, DGX Spark, GCP, GKE, MLOps, Terraform, Workload Identity Federation, GitHub Actions, 自托管Runner, Kubeflow
- 页面链接: https://www.zingnex.cn/forum/thread/miramar-platform-ai
- Canonical: https://www.zingnex.cn/forum/thread/miramar-platform-ai
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：miramar-labs-org
- 来源平台：GitHub
- 原始标题：miramar-platform-gcp
- 原始链接：https://github.com/miramar-labs-org/miramar-platform-gcp
- 来源发布时间/更新时间：2026-06-08

## 项目背景与愿景

在AI开发领域，团队常常面临一个基础设施困境：完全依赖云端GPU成本高昂且存在数据隐私风险，而完全本地部署又缺乏弹性扩展能力。Miramar Platform项目正是为了解决这一矛盾而诞生的。

该项目构建了一个混合云AI平台，将本地NVIDIA DGX Spark和Jetson AGX Orin等边缘设备与Google Cloud Platform的弹性资源无缝整合。核心理念是：敏感数据和模型训练在本地完成，而推理和协作在云端进行。这种模式既保护了数据隐私，又保留了云端的便利性。

## 硬件架构：三层计算节点

项目的硬件层由三台异构机器组成，每台都承担不同的角色。

### WSL2工作站

一台运行Ubuntu 22.04的Windows笔记本通过WSL2提供x86_64计算能力。配备NVIDIA GeForce RTX 4060显卡（8GB显存），这台机器主要用于轻量级开发和测试任务。作为GitHub Actions的自托管Runner，它可以执行不需要大显存的CI/CD任务。

### Jetson AGX Orin

NVIDIA Jetson AGX Orin提供64GB统一内存和2048个CUDA核心，运行Ubuntu 22.04 with JetPack 6.x。这台arm64架构的设备适合边缘AI推理和轻量级训练任务。它的存在让团队可以在本地测试嵌入式AI场景。

### DGX Spark

作为平台的计算核心，NVIDIA DGX Spark配备128GB统一内存和GB10 Superchip（6144个CUDA核心、192个Tensor Core）。这台设备代表了当前边缘AI计算的顶级配置，可以处理大模型的微调和复杂训练任务。

三台机器共享同一个mlabs-runner Docker镜像，WSL2拉取linux/amd64版本，DGX和Orin拉取linux/arm64版本。这种统一镜像策略简化了运维复杂度。

## 云端架构：GCP服务栈

云端部分采用Terraform进行基础设施即代码管理，确保环境的可复现性。

### GKE Standard集群

平台使用GKE Standard集群（miramar-shared-gke）作为共享的Kubernetes计算层。这个集群承载平台的各种工作负载，从简单的Web服务到复杂的ML Pipeline。

### Artifact Registry与GCS

Artifact Registry（apps仓库）用于存储构建的应用镜像，而GCS桶则用于Terraform状态持久化和GKE节点池快照。这种分离确保了构建产物和基础设施状态的独立管理。

### Workload Identity Federation

项目采用Workload Identity Federation实现GitHub Actions到GCP的无密钥认证。这意味着不需要长期有效的服务账号密钥，CI/CD流程通过临时凭证访问GCP资源，显著提升了安全性。

## CI/CD与自动化

项目的自动化程度令人印象深刻。GitHub Actions工作流覆盖了从平台创建到销毁的全生命周期。

### 自托管Runner集成

三台本地机器都注册为GitHub Actions的自托管Runner，分别标记为wsl2、dgx和agx。需要GPU、本地网络访问或arm64架构的任务会自动路由到相应的Runner。这种设计让CI/CD流程可以无缝利用本地硬件资源。

### 工作流矩阵

项目定义了数十个GitHub Actions工作流，涵盖：
- 平台生命周期管理（创建、销毁、扩展、恢复）
- GPU容量查找和配额管理
- 本地AI服务部署（Ollama、NIM、Qdrant、Kubeflow）
- Runner镜像构建和分发
- WSL2环境配置和验证

每个工作流都有对应的销毁/卸载工作流，确保资源可以被干净地释放。

## 本地AI软件栈

DGX Spark运行完整的本地AI软件栈，包括：

### Minikube

本地Kubernetes环境，为各种AI服务提供容器编排能力。

### NeMo Microservices

NVIDIA的AI微服务框架，支持大模型的训练、微调和推理。

### MLflow与MinIO

实验跟踪和模型版本管理，配合MinIO提供S3兼容的对象存储。

### Qdrant

向量数据库，为RAG（检索增强生成）应用提供语义搜索能力。

### Kubeflow Pipelines

ML Pipeline编排工具，支持复杂的数据处理和模型训练工作流。

### Ollama与NIM

本地大模型推理服务，Ollama面向消费级模型，NIM面向企业级NVIDIA优化模型。

这些服务通过SSH隧道暴露到开发工作站，开发者可以在本地获得接近云端的AI开发体验。

## 项目工厂模式

Miramar Platform不仅是基础设施平台，还是一个项目工厂。基于模板生成的项目自动获得：

- Notebook优先的开发环境（JupyterLab）
- 预配置的CI/CD工作流
- 平台集成（自动注册到Dashboard）
- 本地执行配置
- 标准化的文档结构

第一个生产级模板是Kubeflow Pipelines微调项目，支持本地微调（保护PHI数据），然后将脱敏后的模型产物推广到GCP进行推理。这种模式特别适合医疗、金融等敏感数据处理场景。

## 工程实践亮点

### 无密钥认证

Workload Identity Federation的使用消除了长期凭证的管理负担和风险，是现代云原生安全的最佳实践。

### 统一容器镜像

单镜像多架构策略（amd64/arm64）大幅简化了CI/CD配置和运维复杂度。

### 完整生命周期管理

每个资源都有对应的创建和销毁工作流，避免了云资源的"孤儿"问题。

### 文档即代码

项目维护详尽的Markdown文档，从架构设计到操作手册，确保知识的可传递性。

## 适用场景与启示

Miramar Platform特别适合以下场景：
- 需要处理敏感数据的AI开发团队
- 希望降低云端GPU成本的组织
- 需要边缘AI能力的项目
- 追求基础设施即代码的团队

项目的架构设计展示了如何将本地硬件与云服务优雅地结合，既保留了数据主权，又享受了云端的弹性。这种混合模式可能成为未来AI基础设施的标准范式。
