Zing 论坛

正文

Ollama Spot Launcher:低成本临时 GPU 实例一键启动本地大模型推理环境

通过 AWS EC2 Spot 实例以极低成本启动临时 GPU 环境,自动部署 Ollama 和 Open WebUI,适合需要弹性扩展的 AI 推理场景,支持模型缓存持久化以加速后续启动。

AWSEC2SpotOllamaGPU大模型推理Open WebUI成本优化自动化部署
发布时间 2026/06/03 09:42最近活动 2026/06/03 09:54预计阅读 3 分钟
Ollama Spot Launcher:低成本临时 GPU 实例一键启动本地大模型推理环境
1

章节 01

导读 / 主楼:Ollama Spot Launcher:低成本临时 GPU 实例一键启动本地大模型推理环境

通过 AWS EC2 Spot 实例以极低成本启动临时 GPU 环境,自动部署 Ollama 和 Open WebUI,适合需要弹性扩展的 AI 推理场景,支持模型缓存持久化以加速后续启动。

3

章节 03

项目概述

Ollama Spot Launcher 是一个实用的 AWS 基础设施工具,旨在帮助用户以最低成本快速启动临时 GPU 实例来运行本地大语言模型。它充分利用 AWS EC2 Spot 实例的价格优势(通常比按需实例便宜 70-90%),结合 Ollama 的模型服务和 Open WebUI 的友好界面,为开发者和研究者提供了一种经济高效的弹性 AI 推理方案。

该项目的核心理念是"按需启动、用完即停":当你需要 GPU 算力时快速拉起环境,任务完成后释放实例,同时将模型缓存保留在 EBS 卷上,下次启动时可跳过重复下载,实现分钟级就绪。

4

章节 04

主要文件

文件 作用
launch_qwen_spot.sh 本地启动脚本,提交 Spot/按需实例请求,等待模型就绪通知
ec2_userdata.sh 实例启动脚本,自动安装 Ollama、拉取模型、启动 WebUI
launch.env.example 配置模板,需复制为 launch.env 并填写账户信息
5

章节 05

完整工作流程

  1. 启动阶段:本地脚本渲染用户数据脚本,注入 webhook 密钥和密钥对信息,提交 Spot 或按需实例请求
  2. 实例初始化:EC2 启动后自动执行用户数据脚本,安装 Ollama、拉取指定模型(默认 Qwen3-32B)、启动 Open WebUI
  3. 状态回调:实例通过 webhook 向本地发送状态更新(booting → ollama_ready → model_ready)
  4. 本地就绪:本地脚本监听 webhook,收到 model_ready 后打印 Ollama API 地址和 WebUI 地址
  5. 使用阶段:用户可通过 API 或浏览器访问服务,执行推理任务
  6. 自动终止:实例默认在启动后约 55 分钟自动关闭,避免产生意外费用
6

章节 06

Spot 实例价格优化

项目充分利用 AWS Spot 实例的竞价机制,通过 Spot Placement Score API 评估各可用区的容量和价格,帮助用户选择最优的启动位置。同时支持设置最高出价限制,避免价格飙升时产生意外成本。

7

章节 07

模型缓存持久化

默认配置下,EBS 卷在实例终止后会被保留。这意味着拉取的大模型文件(通常数 GB 到数十 GB)会被保存下来,下次启动新实例时只需挂载该卷即可立即使用,无需重复下载,显著缩短启动时间。

8

章节 08

自动可用区选择

通过 --auto-az 参数,脚本会自动选择同一 VPC 中 Spot Placement Score 最高的可用区,无需手动配置多可用区的子网信息,简化了跨区部署的复杂度。