正文

Modelship：基于Ray Serve的多模型AI推理服务器，单GPU运行LLM+TTS+STT+嵌入模型

Modelship（代号Yasha）是一个自托管的多模型AI推理服务器，基于vLLM和Ray Serve构建。它允许用户在单张GPU上同时运行大语言模型、语音合成、语音识别、文本嵌入和图像生成等多种模型，提供与OpenAI兼容的API接口，是私有化部署AI服务的完整解决方案。

多模型推理Ray ServevLLM私有化部署OpenAI APITTSSTTGPU资源管理AI基础设施

发布时间 2026/04/12 04:13最近活动 2026/04/12 04:20预计阅读 3 分钟

章节 01

导读 / 主楼：Modelship：基于Ray Serve的多模型AI推理服务器，单GPU运行LLM+TTS+STT+嵌入模型

章节 02

引言：AI推理部署的痛点

随着大语言模型（LLM）和各类专用AI模型（语音、视觉、嵌入）的快速发展，企业和开发者面临一个共同的挑战：如何在有限的硬件资源上高效部署多个模型？传统的方案往往需要为每个模型分配独立的GPU，或者使用复杂的容器编排系统，这不仅成本高昂，而且运维复杂。

Modelship（项目代号Yasha）应运而生，它是一个开源的自托管多模型AI推理服务器，旨在解决这一痛点。通过创新的资源调度和模型隔离机制，Modelship允许在单张GPU上同时运行LLM、TTS（语音合成）、STT（语音识别）、嵌入模型和图像生成模型，为私有化AI部署提供了经济高效的解决方案。

章节 03

项目架构与技术栈

Modelship建立在两个核心技术之上：

vLLM：提供高性能的大语言模型推理引擎，支持PagedAttention等先进特性 Ray Serve：分布式模型服务框架，负责模型的生命周期管理、负载均衡和故障隔离

章节 04

系统架构图

系统采用分层架构设计：

客户端（OpenAI SDK / curl）
    ↓ HTTP
FastAPI网关（OpenAI兼容API，端口8000）
    ↓
Ray Serve调度器
    ↓
├── LLM部署（如Llama 3.1 8B，占用70% GPU）
├── TTS部署（如Kokoro 82M，占用5% GPU）
├── STT部署（如Whisper，占用10% GPU）
└── 嵌入部署（如Nomic Embed，占用5% GPU）

每个模型作为独立的Ray Serve部署运行，拥有独立的生命周期、健康检查和GPU内存预算。这种设计确保了模型之间的故障隔离——一个模型的崩溃不会影响其他模型的服务。

章节 05

1. 单GPU多模型并发

Modelship最引人注目的特性是能够在单张GPU上同时运行多种类型的AI模型。通过精细的GPU内存分配策略，用户可以根据实际需求调整各模型的资源占用比例。例如，在16GB显存的GPU上，可以配置：

LLM（Llama 3.1 8B）：约70% GPU
TTS（Kokoro 82M）：约5% GPU
STT（Whisper）：约10% GPU
嵌入模型（Nomic Embed）：约5% GPU

这种配置使得开发者无需购买多张GPU即可构建功能完整的AI应用。

章节 06

2. OpenAI兼容API

Modelship提供与OpenAI API完全兼容的接口，支持以下端点：

端点	用途
POST /v1/chat/completions	对话/文本生成（支持流式和非流式）
POST /v1/embeddings	文本嵌入
POST /v1/audio/transcriptions	语音转文字
POST /v1/audio/translations	音频翻译
POST /v1/audio/speech	文字转语音（支持SSE流式）
POST /v1/images/generations	图像生成
GET /v1/models	列出可用模型

这种兼容性意味着开发者可以直接使用OpenAI SDK或任何支持OpenAI API的客户端连接Modelship，无需修改现有代码。

章节 07

3. 插件化TTS系统

Modelship的TTS系统采用插件架构设计，每个TTS后端作为独立的可选包存在，拥有隔离的依赖环境。支持的插件包括：

Kokoro：轻量级高质量TTS模型
Orpheus：另一种TTS后端选择

插件可以通过uv工具轻松安装：uv sync --extra kokoro，Docker用户则通过环境变量启用：YASHA_PLUGINS=kokoro,orpheus。

章节 08

4. 多GPU与资源隔离

对于拥有多张GPU的用户，Modelship支持：

按GPU索引或命名资源分配模型
完整的张量并行支持
客户端断开检测——当客户端断开连接时自动取消正在进行的推理，立即释放GPU资源

Modelship：基于Ray Serve的多模型AI推理服务器，单GPU运行LLM+TTS+STT+嵌入模型

导读 / 主楼：Modelship：基于Ray Serve的多模型AI推理服务器，单GPU运行LLM+TTS+STT+嵌入模型

引言：AI推理部署的痛点

项目架构与技术栈

系统架构图

1. 单GPU多模型并发

2. OpenAI兼容API

3. 插件化TTS系统

4. 多GPU与资源隔离

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

Lattice：AI代理工作流的运维平台，实现跨会话协调与自动化