Zing 论坛

正文

Modelship:基于Ray Serve的多模型AI推理服务器,单GPU运行LLM+TTS+STT+嵌入模型

Modelship(代号Yasha)是一个自托管的多模型AI推理服务器,基于vLLM和Ray Serve构建。它允许用户在单张GPU上同时运行大语言模型、语音合成、语音识别、文本嵌入和图像生成等多种模型,提供与OpenAI兼容的API接口,是私有化部署AI服务的完整解决方案。

多模型推理Ray ServevLLM私有化部署OpenAI APITTSSTTGPU资源管理AI基础设施
发布时间 2026/04/12 04:13最近活动 2026/04/12 04:20预计阅读 3 分钟
Modelship:基于Ray Serve的多模型AI推理服务器,单GPU运行LLM+TTS+STT+嵌入模型
1

章节 01

导读 / 主楼:Modelship:基于Ray Serve的多模型AI推理服务器,单GPU运行LLM+TTS+STT+嵌入模型

Modelship(代号Yasha)是一个自托管的多模型AI推理服务器,基于vLLM和Ray Serve构建。它允许用户在单张GPU上同时运行大语言模型、语音合成、语音识别、文本嵌入和图像生成等多种模型,提供与OpenAI兼容的API接口,是私有化部署AI服务的完整解决方案。

2

章节 02

引言:AI推理部署的痛点

随着大语言模型(LLM)和各类专用AI模型(语音、视觉、嵌入)的快速发展,企业和开发者面临一个共同的挑战:如何在有限的硬件资源上高效部署多个模型?传统的方案往往需要为每个模型分配独立的GPU,或者使用复杂的容器编排系统,这不仅成本高昂,而且运维复杂。

Modelship(项目代号Yasha)应运而生,它是一个开源的自托管多模型AI推理服务器,旨在解决这一痛点。通过创新的资源调度和模型隔离机制,Modelship允许在单张GPU上同时运行LLM、TTS(语音合成)、STT(语音识别)、嵌入模型和图像生成模型,为私有化AI部署提供了经济高效的解决方案。

3

章节 03

项目架构与技术栈

Modelship建立在两个核心技术之上:

vLLM:提供高性能的大语言模型推理引擎,支持PagedAttention等先进特性 Ray Serve:分布式模型服务框架,负责模型的生命周期管理、负载均衡和故障隔离

4

章节 04

系统架构图

系统采用分层架构设计:

客户端(OpenAI SDK / curl)
    ↓ HTTP
FastAPI网关(OpenAI兼容API,端口8000)
    ↓
Ray Serve调度器
    ↓
├── LLM部署(如Llama 3.1 8B,占用70% GPU)
├── TTS部署(如Kokoro 82M,占用5% GPU)
├── STT部署(如Whisper,占用10% GPU)
└── 嵌入部署(如Nomic Embed,占用5% GPU)

每个模型作为独立的Ray Serve部署运行,拥有独立的生命周期、健康检查和GPU内存预算。这种设计确保了模型之间的故障隔离——一个模型的崩溃不会影响其他模型的服务。

5

章节 05

1. 单GPU多模型并发

Modelship最引人注目的特性是能够在单张GPU上同时运行多种类型的AI模型。通过精细的GPU内存分配策略,用户可以根据实际需求调整各模型的资源占用比例。例如,在16GB显存的GPU上,可以配置:

  • LLM(Llama 3.1 8B):约70% GPU
  • TTS(Kokoro 82M):约5% GPU
  • STT(Whisper):约10% GPU
  • 嵌入模型(Nomic Embed):约5% GPU

这种配置使得开发者无需购买多张GPU即可构建功能完整的AI应用。

6

章节 06

2. OpenAI兼容API

Modelship提供与OpenAI API完全兼容的接口,支持以下端点:

端点 用途
POST /v1/chat/completions 对话/文本生成(支持流式和非流式)
POST /v1/embeddings 文本嵌入
POST /v1/audio/transcriptions 语音转文字
POST /v1/audio/translations 音频翻译
POST /v1/audio/speech 文字转语音(支持SSE流式)
POST /v1/images/generations 图像生成
GET /v1/models 列出可用模型

这种兼容性意味着开发者可以直接使用OpenAI SDK或任何支持OpenAI API的客户端连接Modelship,无需修改现有代码。

7

章节 07

3. 插件化TTS系统

Modelship的TTS系统采用插件架构设计,每个TTS后端作为独立的可选包存在,拥有隔离的依赖环境。支持的插件包括:

  • Kokoro:轻量级高质量TTS模型
  • Orpheus:另一种TTS后端选择

插件可以通过uv工具轻松安装:uv sync --extra kokoro,Docker用户则通过环境变量启用:YASHA_PLUGINS=kokoro,orpheus

8

章节 08

4. 多GPU与资源隔离

对于拥有多张GPU的用户,Modelship支持:

  • 按GPU索引或命名资源分配模型
  • 完整的张量并行支持
  • 客户端断开检测——当客户端断开连接时自动取消正在进行的推理,立即释放GPU资源