# Voice Agentic AI Platform：基于Kubernetes的语音代理AI平台

> 开源的语音AI代理平台，整合Whisper语音识别、Mistral 7B ReAct智能代理和Edge TTS语音合成，支持本地Docker开发和生产级Kubernetes部署，为构建语音交互AI应用提供完整解决方案。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-11T16:43:00.000Z
- 最近活动: 2026-06-11T16:57:11.358Z
- 热度: 159.8
- 关键词: 语音AI, Kubernetes, Whisper, Mistral, ArgoCD, GitOps, ReAct代理, 边缘TTS
- 页面链接: https://www.zingnex.cn/forum/thread/voice-agentic-ai-platform-kubernetesai
- Canonical: https://www.zingnex.cn/forum/thread/voice-agentic-ai-platform-kubernetesai
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：rashesh91
- 来源平台：GitHub
- 原始标题：ml-inference-gitops
- 原始链接：https://github.com/rashesh91/ml-inference-gitops
- 来源发布时间/更新时间：2026-06-11

---

## 项目概述：端到端语音AI代理

Voice Agentic AI Platform是一个生产级的语音AI代理平台，让用户可以通过语音提问并获得语音回答。整个流程无缝衔接：

**语音输入 → Whisper语音识别 → Mistral 7B智能代理推理 → Edge TTS语音合成 → 语音输出**

该项目采用现代化的云原生架构，支持从本地开发到生产级Kubernetes部署的无缝迁移，并使用ArgoCD实现GitOps管理。无论是想快速搭建语音助手原型，还是部署企业级语音AI服务，这个平台都提供了完整的解决方案。

---

## 系统架构设计

平台采用微服务架构，各组件职责清晰：

### 核心组件流程

```
浏览器/Web客户端
    ↓ WebSocket (base64音频)
voice-gateway（语音网关）
    ← HTTP → whisper-stt（语音识别，GPU加速）
    │              ↓ 转录文本
    │       HTTP → llm-agent（大语言模型代理，GPU推理）
    │              ↓ ReAct循环
    │       HTTP → tts-service（语音合成，无需GPU）
    ↓              ↓ MP3音频
浏览器播放语音响应
```

### 各服务职责

| 服务 | 端口 | GPU需求 | 功能说明 |
|------|------|---------|----------|
| `voice-gateway` | 8000 | 否 | WebSocket编排器 + Web UI |
| `whisper-stt` | 8001 | 是 | 音频转文本（faster-whisper） |
| `llm-agent` | 8000/11434 | 是 | ReAct代理（vLLM / Ollama） |
| `tts-service` | 8002 | 否 | 文本转语音（edge-tts） |

这种架构设计实现了计算资源的合理分配：GPU专注于计算密集型任务（语音识别和大模型推理），而CPU服务处理I/O密集型任务（网关和语音合成）。

---

## 硬件资源配置

### 本地开发环境（Docker Compose，无GPU）

对于没有GPU的开发环境，平台提供了完全可用的CPU方案：

| 资源 | 最低配置 | 推荐配置 |
|------|----------|----------|
| CPU | 4核 | 8核 |
| 内存 | 10 GB | 16 GB |
| 磁盘 | 15 GB可用 | 30 GB可用 |
| 操作系统 | Linux/macOS/Windows(WSL2) | Ubuntu 22.04 |
| Docker | v24+ | v24+ |

使用Ollama配合`mistral:7b-q4_0`（4-bit量化）模型，虽然推理速度较慢（约10-20秒/响应），但功能完整。对于8GB内存的机器，建议切换到`tinyllama`以获得更快的响应。

### 生产环境（Kubernetes GPU集群）

生产部署需要GPU支持以获得最佳性能：

| 节点类型 | 数量 | CPU | 内存 | GPU | 角色 |
|----------|------|-----|------|-----|------|
| GPU节点 | 1-3 | 8 vCPU | 32 GB | 1× NVIDIA T4 (16GB VRAM) | Whisper STT + vLLM |
| CPU节点 | 2 | 4 vCPU | 8 GB | — | 网关、TTS、监控 |

**各服务资源需求明细：**

| 服务 | CPU请求 | 内存请求 | GPU |
|------|---------|----------|-----|
| `whisper-stt` | 2核 | 4 GB | 1× GPU（可选） |
| `llm-agent` | 4核 | 16 GB | 1× GPU（Mistral 7B必需） |
| `tts-service` | 0.25核 | 256 MB | 无 |
| `voice-gateway` | 0.5核 | 512 MB | 无 |
| Prometheus + Grafana | 1核 | 2 GB | 无 |
| ArgoCD | 1核 | 1 GB | 无 |

**不同模型的GPU需求：**

| 模型 | VRAM需求 | CPU内存回退 |
|------|----------|-------------|
| TinyLlama 1.1B | 2 GB | 4 GB |
| Mistral 7B (Q4量化) | 6 GB | 8 GB（较慢） |
| Mistral 7B (BF16) | 16 GB | 不推荐 |
| Llama 2 13B | 28 GB | 不推荐 |

---

## 快速开始指南

### 本地开发（Docker Compose）

最简单的启动方式：

```bash
cd ml-inference-gitops

# 构建并启动所有服务
docker-compose up --build

# 在另一个终端拉取大语言模型（一次性，约4GB）
docker-compose exec llm-agent ollama pull mistral

# 打开语音聊天界面
open http://localhost:8000
```

启动后，点击麦克风图标即可开始对话。可以尝试以下问题：
- "孟买天气怎么样？"
- "847的15%是多少？"
- "现在几点了？"
- "搜索关于AI的最新新闻"

### Kubernetes生产部署（ArgoCD）

生产部署采用GitOps模式，ArgoCD按同步波次自动部署：

**第一步：构建并推送镜像**

```bash
REGISTRY=your-registry.io/voice-platform

docker build -t $REGISTRY/whisper-stt:latest services/whisper-stt/
docker build -t $REGISTRY/tts-service:latest services/tts-service/
docker build -t $REGISTRY/voice-gateway:latest services/voice-gateway/
docker push $REGISTRY/whisper-stt:latest
docker push $REGISTRY/tts-service:latest
docker push $REGISTRY/voice-gateway:latest
```

**第二步：更新镜像仓库配置**

编辑`applications/voice-platform/values.yaml`：

```yaml
global:
  imageRegistry: "your-registry.io/voice-platform/"
```

**第三步：引导集群**

```bash
# 应用命名空间、RBAC、GPU Operator
kubectl apply -f infrastructure/namespaces/namespaces.yaml
kubectl apply -f infrastructure/rbac/

# 安装ArgoCD
kubectl apply -n argocd -f https://raw.githubusercontent.com/argoproj/argo-cd/stable/manifests/install.yaml

# 引导应用
kubectl apply -f argocd-config/projects.yaml
kubectl apply -f argocd-config/root-app.yaml -n argocd
```

**第四步：ArgoCD自动同步**

ArgoCD将按以下波次同步：
- 波次0：命名空间、RBAC
- 波次1：GPU Operator
- 波次2：监控（Prometheus + Grafana）
- 波次3：语音平台（Whisper + LLM + TTS + Gateway）

查看进度：`kubectl get applications -n argocd -w`

访问UI：`https://voice.example.com`（需更新`voiceGateway.ingress.host`）

---

## 智能代理工具集

平台内置了实用的工具集，代理可以根据用户请求自动调用：

| 工具 | 描述 | API |
|------|------|-----|
| `search(query)` | 网页搜索 | DuckDuckGo（无需API密钥） |
| `weather(location)` | 当前天气+预报 | wttr.in（无需API密钥） |
| `calculator(expr)` | 安全数学计算 | stdlib（沙箱AST） |
| `get_datetime()` | 当前日期时间 | stdlib |

添加新工具非常简单：只需在`services/voice-gateway/app/tools/`目录下创建Python文件，并在`__init__.py`中注册即可。

---

## WebSocket通信协议

平台使用WebSocket实现实时双向通信：

**客户端 → 服务器：**

| 消息类型 | 说明 |
|----------|------|
| `{type: "audio", data: "<base64 webm>"}` | 触发完整语音流程 |
| `{type: "text", text: "..."}` | 纯文本模式（无需麦克风） |
| `{type: "reset"}` | 清除会话历史 |

**服务器 → 客户端：**

| 消息类型 | 说明 |
|----------|------|
| `{type: "status", message: "..."}` | 状态更新 |
| `{type: "transcript", text: "..."}` | 语音识别结果 |
| `{type: "tool_call", tool: "...", args: {...}}` | 工具调用通知 |
| `{type: "tool_result", tool: "...", result: "..."}` | 工具执行结果 |
| `{type: "response", text: "..."}` | 文本回复 |
| `{type: "audio", data: "<base64 mp3>"}` | 语音回复 |
| `{type: "done"}` | 流程完成 |
| `{type: "error", message: "..."}` | 错误信息 |

---

## 项目结构

```
ml-inference-gitops/
├── services/                    # Python微服务源码
│   ├── whisper-stt/            # faster-whisper语音识别
│   ├── tts-service/            # edge-tts语音合成
│   └── voice-gateway/          # FastAPI网关 + ReAct代理
│       ├── app/
│       │   ├── main.py         # WebSocket服务器
│       │   ├── pipeline.py     # STT→代理→TTS流程
│       │   ├── agent.py        # ReAct代理循环
│       │   └── tools/          # 工具集
│   └── static/                 # Web UI资源
├── applications/               # Helm Charts
│   └── voice-platform/
├── infrastructure/             # K8s基础设施
├── argocd-config/              # ArgoCD配置
├── docker-compose.yml          # 本地开发
└── docs/                       # 文档
```

---

## 技术亮点与价值

这个项目展示了现代AI应用开发的多个最佳实践：

**模块化微服务架构**：各组件独立部署、独立扩展，便于维护和升级

**云原生GitOps**：通过ArgoCD实现声明式配置管理，版本控制基础设施

**资源优化**：合理分配GPU和CPU资源，在成本和性能之间取得平衡

**零API密钥设计**：使用DuckDuckGo和wttr.in等免费服务，降低使用门槛

**开源技术栈**：基于Ollama、vLLM、Whisper等开源项目，完全可控

对于希望构建语音AI应用的开发者来说，这是一个极佳的参考实现，涵盖了从本地原型到生产部署的完整流程。