章节 01
导读 / 主楼:Voice Agentic AI Platform:基于Kubernetes的语音代理AI平台
开源的语音AI代理平台,整合Whisper语音识别、Mistral 7B ReAct智能代理和Edge TTS语音合成,支持本地Docker开发和生产级Kubernetes部署,为构建语音交互AI应用提供完整解决方案。
正文
开源的语音AI代理平台,整合Whisper语音识别、Mistral 7B ReAct智能代理和Edge TTS语音合成,支持本地Docker开发和生产级Kubernetes部署,为构建语音交互AI应用提供完整解决方案。
章节 01
开源的语音AI代理平台,整合Whisper语音识别、Mistral 7B ReAct智能代理和Edge TTS语音合成,支持本地Docker开发和生产级Kubernetes部署,为构建语音交互AI应用提供完整解决方案。
章节 02
章节 03
Voice Agentic AI Platform是一个生产级的语音AI代理平台,让用户可以通过语音提问并获得语音回答。整个流程无缝衔接:
语音输入 → Whisper语音识别 → Mistral 7B智能代理推理 → Edge TTS语音合成 → 语音输出
该项目采用现代化的云原生架构,支持从本地开发到生产级Kubernetes部署的无缝迁移,并使用ArgoCD实现GitOps管理。无论是想快速搭建语音助手原型,还是部署企业级语音AI服务,这个平台都提供了完整的解决方案。
章节 04
平台采用微服务架构,各组件职责清晰:
章节 05
浏览器/Web客户端
↓ WebSocket (base64音频)
voice-gateway(语音网关)
← HTTP → whisper-stt(语音识别,GPU加速)
│ ↓ 转录文本
│ HTTP → llm-agent(大语言模型代理,GPU推理)
│ ↓ ReAct循环
│ HTTP → tts-service(语音合成,无需GPU)
↓ ↓ MP3音频
浏览器播放语音响应
章节 06
| 服务 | 端口 | GPU需求 | 功能说明 |
|---|---|---|---|
voice-gateway |
8000 | 否 | WebSocket编排器 + Web UI |
whisper-stt |
8001 | 是 | 音频转文本(faster-whisper) |
llm-agent |
8000/11434 | 是 | ReAct代理(vLLM / Ollama) |
tts-service |
8002 | 否 | 文本转语音(edge-tts) |
这种架构设计实现了计算资源的合理分配:GPU专注于计算密集型任务(语音识别和大模型推理),而CPU服务处理I/O密集型任务(网关和语音合成)。
章节 07
对于没有GPU的开发环境,平台提供了完全可用的CPU方案:
| 资源 | 最低配置 | 推荐配置 |
|---|---|---|
| CPU | 4核 | 8核 |
| 内存 | 10 GB | 16 GB |
| 磁盘 | 15 GB可用 | 30 GB可用 |
| 操作系统 | Linux/macOS/Windows(WSL2) | Ubuntu 22.04 |
| Docker | v24+ | v24+ |
使用Ollama配合mistral:7b-q4_0(4-bit量化)模型,虽然推理速度较慢(约10-20秒/响应),但功能完整。对于8GB内存的机器,建议切换到tinyllama以获得更快的响应。
章节 08
生产部署需要GPU支持以获得最佳性能:
| 节点类型 | 数量 | CPU | 内存 | GPU | 角色 |
|---|---|---|---|---|---|
| GPU节点 | 1-3 | 8 vCPU | 32 GB | 1× NVIDIA T4 (16GB VRAM) | Whisper STT + vLLM |
| CPU节点 | 2 | 4 vCPU | 8 GB | — | 网关、TTS、监控 |
各服务资源需求明细:
| 服务 | CPU请求 | 内存请求 | GPU |
|---|---|---|---|
whisper-stt |
2核 | 4 GB | 1× GPU(可选) |
llm-agent |
4核 | 16 GB | 1× GPU(Mistral 7B必需) |
tts-service |
0.25核 | 256 MB | 无 |
voice-gateway |
0.5核 | 512 MB | 无 |
| Prometheus + Grafana | 1核 | 2 GB | 无 |
| ArgoCD | 1核 | 1 GB | 无 |
不同模型的GPU需求:
| 模型 | VRAM需求 | CPU内存回退 |
|---|---|---|
| TinyLlama 1.1B | 2 GB | 4 GB |
| Mistral 7B (Q4量化) | 6 GB | 8 GB(较慢) |
| Mistral 7B (BF16) | 16 GB | 不推荐 |
| Llama 2 13B | 28 GB | 不推荐 |