章节 01
导读 / 主楼:Modelship:基于Ray Serve的多模型AI推理服务器,单GPU运行LLM+TTS+STT+嵌入模型
Modelship(代号Yasha)是一个自托管的多模型AI推理服务器,基于vLLM和Ray Serve构建。它允许用户在单张GPU上同时运行大语言模型、语音合成、语音识别、文本嵌入和图像生成等多种模型,提供与OpenAI兼容的API接口,是私有化部署AI服务的完整解决方案。
正文
Modelship(代号Yasha)是一个自托管的多模型AI推理服务器,基于vLLM和Ray Serve构建。它允许用户在单张GPU上同时运行大语言模型、语音合成、语音识别、文本嵌入和图像生成等多种模型,提供与OpenAI兼容的API接口,是私有化部署AI服务的完整解决方案。
章节 01
Modelship(代号Yasha)是一个自托管的多模型AI推理服务器,基于vLLM和Ray Serve构建。它允许用户在单张GPU上同时运行大语言模型、语音合成、语音识别、文本嵌入和图像生成等多种模型,提供与OpenAI兼容的API接口,是私有化部署AI服务的完整解决方案。
章节 02
随着大语言模型(LLM)和各类专用AI模型(语音、视觉、嵌入)的快速发展,企业和开发者面临一个共同的挑战:如何在有限的硬件资源上高效部署多个模型?传统的方案往往需要为每个模型分配独立的GPU,或者使用复杂的容器编排系统,这不仅成本高昂,而且运维复杂。
Modelship(项目代号Yasha)应运而生,它是一个开源的自托管多模型AI推理服务器,旨在解决这一痛点。通过创新的资源调度和模型隔离机制,Modelship允许在单张GPU上同时运行LLM、TTS(语音合成)、STT(语音识别)、嵌入模型和图像生成模型,为私有化AI部署提供了经济高效的解决方案。
章节 03
Modelship建立在两个核心技术之上:
vLLM:提供高性能的大语言模型推理引擎,支持PagedAttention等先进特性 Ray Serve:分布式模型服务框架,负责模型的生命周期管理、负载均衡和故障隔离
章节 04
系统采用分层架构设计:
客户端(OpenAI SDK / curl)
↓ HTTP
FastAPI网关(OpenAI兼容API,端口8000)
↓
Ray Serve调度器
↓
├── LLM部署(如Llama 3.1 8B,占用70% GPU)
├── TTS部署(如Kokoro 82M,占用5% GPU)
├── STT部署(如Whisper,占用10% GPU)
└── 嵌入部署(如Nomic Embed,占用5% GPU)
每个模型作为独立的Ray Serve部署运行,拥有独立的生命周期、健康检查和GPU内存预算。这种设计确保了模型之间的故障隔离——一个模型的崩溃不会影响其他模型的服务。
章节 05
Modelship最引人注目的特性是能够在单张GPU上同时运行多种类型的AI模型。通过精细的GPU内存分配策略,用户可以根据实际需求调整各模型的资源占用比例。例如,在16GB显存的GPU上,可以配置:
这种配置使得开发者无需购买多张GPU即可构建功能完整的AI应用。
章节 06
Modelship提供与OpenAI API完全兼容的接口,支持以下端点:
| 端点 | 用途 |
|---|---|
| POST /v1/chat/completions | 对话/文本生成(支持流式和非流式) |
| POST /v1/embeddings | 文本嵌入 |
| POST /v1/audio/transcriptions | 语音转文字 |
| POST /v1/audio/translations | 音频翻译 |
| POST /v1/audio/speech | 文字转语音(支持SSE流式) |
| POST /v1/images/generations | 图像生成 |
| GET /v1/models | 列出可用模型 |
这种兼容性意味着开发者可以直接使用OpenAI SDK或任何支持OpenAI API的客户端连接Modelship,无需修改现有代码。
章节 07
Modelship的TTS系统采用插件架构设计,每个TTS后端作为独立的可选包存在,拥有隔离的依赖环境。支持的插件包括:
插件可以通过uv工具轻松安装:uv sync --extra kokoro,Docker用户则通过环境变量启用:YASHA_PLUGINS=kokoro,orpheus。
章节 08
对于拥有多张GPU的用户,Modelship支持: