章节 01
主楼:单机多模型GPU推理服务器核心方案介绍
本项目提供在单张Tesla P40 GPU上统一运行Qwen 3.5(对话+视觉)、Whisper(语音转录)和TimesFM 2.5(时序预测)的解决方案。核心通过"按需加载、空闲卸载"机制实现GPU资源高效利用,闲置时GPU功耗低至约12W,所有模型统一部署在单个Docker容器中。
正文
该项目提供了一种在单张 Tesla P40 GPU 上统一运行 Qwen 3.5(对话+视觉)、Whisper(语音转录)和 TimesFM 2.5(时序预测)的解决方案,通过智能加载/卸载机制实现 GPU 资源的高效利用。
章节 01
本项目提供在单张Tesla P40 GPU上统一运行Qwen 3.5(对话+视觉)、Whisper(语音转录)和TimesFM 2.5(时序预测)的解决方案。核心通过"按需加载、空闲卸载"机制实现GPU资源高效利用,闲置时GPU功耗低至约12W,所有模型统一部署在单个Docker容器中。
章节 02
llm-inference-server是统一多模型GPU推理服务器,支持四种AI模型:Qwen3.5 9B(通用对话)、Qwen3.5 0.8B(轻量多模态)、Whisper large-v3-turbo(语音转录)、TimesFM2.5(时序预测)。核心设计理念为"按需加载、空闲卸载"——模型仅在需要时加载,闲置超时自动卸载,无任务时GPU功耗低。
章节 03
系统采用单端口路由架构,通过HTTP端口8088对外服务,内部由server.py(纯Python)作为路由器。server.py始终运行,负责监听请求并启动对应模型子进程;模型闲置超IDLE_TIMEOUT(默认300秒)则自动关闭释放显存。server.py不导入GPU库,所有模型空闲时GPU处于P8状态(12W),适合低调用频率长时间运行场景。
章节 04
不同状态下的显存与功耗:
| 状态 | 显存使用 | 功耗 | GPU状态 |
|---|---|---|---|
| 全部空闲 | ~200 MiB | 12W | P8 |
| 仅Qwen9B | ~10.5GB | 55W | P0 |
| 仅Qwen0.8B | ~1.5GB | 55W | P0 |
| 仅Whisper | ~2.5GB | 55W | P0 |
| 仅TimesFM | ~6.5GB | 55W | P0 |
| 四模型全加载 | ~18.9GB | 60W | P0 |
| 空闲超时后 | ~200MiB | 12W | P8 |
| Tesla P40(24GB显存)可同时加载所有模型,剩余约5GB缓冲。 |
章节 05
支持多种API端点:
提供OpenAI兼容API,可使用OpenAI SDK调用。注意:Qwen模型默认用思维链推理,建议max_tokens设为300-500避免中途耗尽。
章节 06
硬件要求:NVIDIA GPU(≥20GB显存,Tesla P40测试通过)、CPU支持Ivy Bridge指令集、CUDA驱动13.0+、Docker+NVIDIA Container Toolkit。 模型下载:需单独下载Qwen3.5 9B、Qwen3.5 0.8B(含视觉投影)、Whisper large-v3-turbo;TimesFM首次使用自动下载。 部署步骤:docker compose build(首次约15-20分钟)→ docker compose up -d。可通过.env文件配置IDLE_TIMEOUT(默认300秒)、START_TIMEOUT(默认120秒)。
章节 07
章节 08
适用场景:边缘AI部署(单服务器多模型,低能耗)、私有AI基础设施(本地运行无云端API)、多模态应用(统一后端支持文本/语音/图像/时序)、成本敏感环境(最大化硬件利用率)。 总结:本项目展示了实用的多模型部署模式,通过智能资源管理和统一路由层,在单GPU上实现生产就绪的多模态AI服务,适合本地/私有云部署需求。