正文

Voice Agentic AI Platform：基于Kubernetes的语音代理AI平台

开源的语音AI代理平台，整合Whisper语音识别、Mistral 7B ReAct智能代理和Edge TTS语音合成，支持本地Docker开发和生产级Kubernetes部署，为构建语音交互AI应用提供完整解决方案。

语音AIKubernetesWhisperMistralArgoCDGitOpsReAct代理边缘TTS

发布时间 2026/06/12 00:43最近活动 2026/06/12 00:57预计阅读 4 分钟

章节 01

导读 / 主楼：Voice Agentic AI Platform：基于Kubernetes的语音代理AI平台

章节 02

原作者与来源

原作者/维护者：rashesh91
来源平台：GitHub
原始标题：ml-inference-gitops
原始链接：https://github.com/rashesh91/ml-inference-gitops
来源发布时间/更新时间：2026-06-11

章节 03

项目概述：端到端语音AI代理

Voice Agentic AI Platform是一个生产级的语音AI代理平台，让用户可以通过语音提问并获得语音回答。整个流程无缝衔接：

语音输入 → Whisper语音识别 → Mistral 7B智能代理推理 → Edge TTS语音合成 → 语音输出

该项目采用现代化的云原生架构，支持从本地开发到生产级Kubernetes部署的无缝迁移，并使用ArgoCD实现GitOps管理。无论是想快速搭建语音助手原型，还是部署企业级语音AI服务，这个平台都提供了完整的解决方案。

章节 04

系统架构设计

平台采用微服务架构，各组件职责清晰：

章节 05

核心组件流程

浏览器/Web客户端
    ↓ WebSocket (base64音频)
voice-gateway（语音网关）
    ← HTTP → whisper-stt（语音识别，GPU加速）
    │              ↓ 转录文本
    │       HTTP → llm-agent（大语言模型代理，GPU推理）
    │              ↓ ReAct循环
    │       HTTP → tts-service（语音合成，无需GPU）
    ↓              ↓ MP3音频
浏览器播放语音响应

章节 06

各服务职责

服务	端口	GPU需求	功能说明
`voice-gateway`	8000	否	WebSocket编排器 + Web UI
`whisper-stt`	8001	是	音频转文本（faster-whisper）
`llm-agent`	8000/11434	是	ReAct代理（vLLM / Ollama）
`tts-service`	8002	否	文本转语音（edge-tts）

这种架构设计实现了计算资源的合理分配：GPU专注于计算密集型任务（语音识别和大模型推理），而CPU服务处理I/O密集型任务（网关和语音合成）。

章节 07

本地开发环境（Docker Compose，无GPU）

对于没有GPU的开发环境，平台提供了完全可用的CPU方案：

资源	最低配置	推荐配置
CPU	4核	8核
内存	10 GB	16 GB
磁盘	15 GB可用	30 GB可用
操作系统	Linux/macOS/Windows(WSL2)	Ubuntu 22.04
Docker	v24+	v24+

使用Ollama配合mistral:7b-q4_0（4-bit量化）模型，虽然推理速度较慢（约10-20秒/响应），但功能完整。对于8GB内存的机器，建议切换到tinyllama以获得更快的响应。

章节 08

生产环境（Kubernetes GPU集群）

生产部署需要GPU支持以获得最佳性能：

节点类型	数量	CPU	内存	GPU	角色
GPU节点	1-3	8 vCPU	32 GB	1× NVIDIA T4 (16GB VRAM)	Whisper STT + vLLM
CPU节点	2	4 vCPU	8 GB	—	网关、TTS、监控

各服务资源需求明细：

服务	CPU请求	内存请求	GPU
`whisper-stt`	2核	4 GB	1× GPU（可选）
`llm-agent`	4核	16 GB	1× GPU（Mistral 7B必需）
`tts-service`	0.25核	256 MB	无
`voice-gateway`	0.5核	512 MB	无
Prometheus + Grafana	1核	2 GB	无
ArgoCD	1核	1 GB	无