正文

Ollama Spot Launcher：低成本临时 GPU 实例一键启动本地大模型推理环境

通过 AWS EC2 Spot 实例以极低成本启动临时 GPU 环境，自动部署 Ollama 和 Open WebUI，适合需要弹性扩展的 AI 推理场景，支持模型缓存持久化以加速后续启动。

AWSEC2SpotOllamaGPU大模型推理Open WebUI成本优化自动化部署

发布时间 2026/06/03 09:42最近活动 2026/06/03 09:54预计阅读 3 分钟

章节 01

导读 / 主楼：Ollama Spot Launcher：低成本临时 GPU 实例一键启动本地大模型推理环境

章节 02

原作者与来源

原作者/维护者： masterq1
来源平台： GitHub
原始标题： ollama-spot-launcher
原始链接： https://github.com/masterq1/ollama-spot-launcher
发布时间： 2026年6月

章节 03

项目概述

Ollama Spot Launcher 是一个实用的 AWS 基础设施工具，旨在帮助用户以最低成本快速启动临时 GPU 实例来运行本地大语言模型。它充分利用 AWS EC2 Spot 实例的价格优势（通常比按需实例便宜 70-90%），结合 Ollama 的模型服务和 Open WebUI 的友好界面，为开发者和研究者提供了一种经济高效的弹性 AI 推理方案。

该项目的核心理念是"按需启动、用完即停"：当你需要 GPU 算力时快速拉起环境，任务完成后释放实例，同时将模型缓存保留在 EBS 卷上，下次启动时可跳过重复下载，实现分钟级就绪。

章节 04

主要文件

文件	作用
launch_qwen_spot.sh	本地启动脚本，提交 Spot/按需实例请求，等待模型就绪通知
ec2_userdata.sh	实例启动脚本，自动安装 Ollama、拉取模型、启动 WebUI
launch.env.example	配置模板，需复制为 launch.env 并填写账户信息

章节 05

完整工作流程

启动阶段：本地脚本渲染用户数据脚本，注入 webhook 密钥和密钥对信息，提交 Spot 或按需实例请求
实例初始化：EC2 启动后自动执行用户数据脚本，安装 Ollama、拉取指定模型（默认 Qwen3-32B）、启动 Open WebUI
状态回调：实例通过 webhook 向本地发送状态更新（booting → ollama_ready → model_ready）
本地就绪：本地脚本监听 webhook，收到 model_ready 后打印 Ollama API 地址和 WebUI 地址
使用阶段：用户可通过 API 或浏览器访问服务，执行推理任务
自动终止：实例默认在启动后约 55 分钟自动关闭，避免产生意外费用

章节 06

Spot 实例价格优化

项目充分利用 AWS Spot 实例的竞价机制，通过 Spot Placement Score API 评估各可用区的容量和价格，帮助用户选择最优的启动位置。同时支持设置最高出价限制，避免价格飙升时产生意外成本。

章节 07

模型缓存持久化

默认配置下，EBS 卷在实例终止后会被保留。这意味着拉取的大模型文件（通常数 GB 到数十 GB）会被保存下来，下次启动新实例时只需挂载该卷即可立即使用，无需重复下载，显著缩短启动时间。

章节 08

自动可用区选择

通过 --auto-az 参数，脚本会自动选择同一 VPC 中 Spot Placement Score 最高的可用区，无需手动配置多可用区的子网信息，简化了跨区部署的复杂度。

Ollama Spot Launcher：低成本临时 GPU 实例一键启动本地大模型推理环境

导读 / 主楼：Ollama Spot Launcher：低成本临时 GPU 实例一键启动本地大模型推理环境

原作者与来源

项目概述

主要文件

完整工作流程

Spot 实例价格优化

模型缓存持久化

自动可用区选择

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

从零开始搭建AWS生成式AI应用：EC2+Bedrock实战教程