# SkyPhusion LLM：在单个 Cloudflare Worker 上构建的多模态 AI playground

> 一个部署在单个 Cloudflare Worker 上的全功能多模态 AI playground，支持 35 个聊天模型、语音对话、图像/视频/音乐生成、RAG 检索增强生成和项目知识库管理。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-13T03:42:44.000Z
- 最近活动: 2026-06-13T03:51:16.459Z
- 热度: 152.9
- 关键词: Cloudflare, AI, 多模态, Worker, RAG, 语音聊天, 图像生成, 视频生成, 开源
- 页面链接: https://www.zingnex.cn/forum/thread/skyphusion-llm-cloudflare-worker-ai-playground
- Canonical: https://www.zingnex.cn/forum/thread/skyphusion-llm-cloudflare-worker-ai-playground
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：skyphusion-labs
- 来源平台：github
- 原始标题：skyphusion-llm-public
- 原始链接：https://github.com/skyphusion-labs/skyphusion-llm-public
- 来源发布时间/更新时间：2026-06-13T03:42:44Z

## 原作者与来源\n\n- 原作者/维护者：skyphusion-labs\n- 来源平台：GitHub\n- 原始标题：skyphusion-llm-public\n- 原始链接：https://github.com/skyphusion-labs/skyphusion-llm-public\n- 来源发布时间/更新时间：2026-06-13T03:42:44Z\n\n## 项目概述\n\nSkyPhusion LLM 是一个令人印象深刻的全功能多模态 AI playground，整个系统仅部署在单个 Cloudflare Worker 上。它集成了 35 个来自 5 个不同提供商的聊天模型，支持免提语音对话、图像生成、视频生成、音乐生成、文本转语音、语音转文本、RAG 检索增强生成以及项目知识库管理等功能。\n\n这个项目的核心价值在于展示了 Cloudflare 技术栈的强大能力——无需复杂的服务器架构，仅用一个 Worker 就能构建出功能丰富的 AI 应用。项目采用 TypeScript 编写，没有使用额外的框架，构建过程简单直接。\n\n## 核心技术架构\n\n### 统一 AI 调用接口\n\n项目通过 `env.AI.run()` 绑定实现了统一的 AI 调用接口，支持多种模态：\n\n- **聊天对话**：支持 35 个模型跨 5 个提供商\n- **视觉输入**：图像理解能力\n- **图像生成**：多种图像生成模型\n- **语音合成（TTS）**：Aura-2、MeloTTS\n- **语音识别（STT）**：Whisper、Deepgram Nova-3\n- **对话式语音聊天**：通过 Deepgram Flux 实现 WebSocket 流式处理\n- **视频生成**：多种视频生成模型\n- **音乐生成**：MiniMax Music 2.6\n\n### 多提供商支持\n\n项目实现了对 5 个主流 AI 提供商的支持：\n\n1. **Workers AI**：Llama 4 Scout、Llama 3.x 系列、Qwen3 30B、DeepSeek R1、Mistral Small 3.1、Gemma 4/3 等\n2. **Anthropic（统一计费）**：Claude Opus 4.8/4.7/4.6、Sonnet 4.6、Haiku 4.5\n3. **xAI（自带 API Key）**：Grok 4.3、Grok 4.20（多代理和推理）、Grok Build 0.1\n4. **OpenAI（统一计费）**：GPT-5.5、GPT-5.4、GPT-5.4 mini、o4-mini\n5. **Google Gemini（统一计费）**：Gemini 3.1 Pro\n\n### 基础设施组件\n\n- **D1 数据库**：存储聊天元数据、多轮对话历史、RAG 文本块\n- **R2 存储**：存储所有二进制产物（图像、音频、视频等）\n- **Vectorize**：存储 RAG 嵌入向量（768 维 BGE-base）\n- **AI Gateway**：包装每个调用，提供可观测性、缓存和速率限制\n- **Cloudflare Workflows**：处理长时间运行的任务，如视频和音乐生成（30 秒到 3 分钟）\n- **Cloudflare Access**：保护整个 Worker URL，实现基于用户邮箱的访问控制\n\n## 核心功能详解\n\n### 免提语音聊天\n\n这是项目的一大亮点功能。用户可以通过麦克风与任意一个聊天模型进行语音对话：\n\n- 语音通过 Deepgram Flux 实时转录\n- 转录文本通过常规聊天路径发送给选定的模型\n- 模型回复通过 Aura-2 TTS 语音播放\n- 整个流程在 Cloudflare 上完成，无需第三方 STT/TTS 服务\n- 支持全部 35 个聊天模型\n- 对话历史像普通聊天一样保存\n\n### RAG 检索增强生成\n\n项目实现了完整的 RAG 功能：\n\n- 支持上传任意类型文件（v0.23.0+）\n- 支持上传 `.zip` 批量导入多个文件（v0.25.0+）\n- PDF 按页提取，电子表格按工作表提取\n- 其他文件作为 UTF-8 文本读取（CSV、JSON、HTML、源代码、日志等）\n- 文档分块后通过 BGE-base 嵌入，存储在 Vectorize\n- 文本内容存储在 D1\n- 每次对话可选择是否启用"使用我的文档"，将最相关的 5 个文本块注入系统提示词\n\n### 项目和知识库\n\n从 v0.20.0 开始支持项目和知识库功能：\n\n- 可将文档和对话分组到命名项目下\n- 每个项目有自己的默认系统提示词和检索范围\n- 一个文档可以属于多个项目\n- 选择项目后，"使用我的文档"检索将限定在该项目的文档范围内\n- 项目活跃时启动的对话会被标记归属\n- 可以在侧边栏将对话在项目之间移动\n\n### Discord 聊天记录导入\n\n从 v0.20.3 开始支持导入 Discord 聊天记录：\n\n- 支持 DiscordChatExporter JSON 导出格式\n- 自动按作者、时间间隔和频道分组消息\n- 消息分块后嵌入到项目的检索范围\n- 可以跨归档的 Discord 频道历史提问\n\n### 网络搜索\n\n从 v0.17.0 开始支持可选的网络搜索功能：\n\n- 并行查询 Tavily（通用网络）和 Wikipedia（参考和知识）\n- 搜索结果片段以与 RAG 块相同的方式注入系统提示词\n- 每次对话可选择是否启用\n- Tavily 需要 `TAVILY_API_KEY`，Wikipedia 无需配置\n\n### SSE 流式输出\n\n从 v0.13.0 开始支持 SSE 流式输出：\n\n- `POST /api/chat/stream` 端点返回 SSE\n- 支持所有标记为 `streaming: true` 的聊天模型\n- Token 增量以 `{ type: \"delta\", text: \"...\" }` 事件形式输出\n- 完成时输出 `{ type: \"done\", ... }` 包含 Token 计数和对话 ID\n- 客户端断开连接会立即中止上游模型调用\n\n### 多轮对话\n\n- 通过 `conversation_id` 和 `turn_index` 管理多轮对话\n- 继续对话时会拉取之前的轮次，组装完整的对话历史\n- 支持混合模型对话（可以用 Llama 开始，用 Claude 继续）\n- 继续时仅支持文本，之前的图像、音频和视频不会重新发送\n\n## 图像生成功能\n\n项目支持多种图像生成模型：\n\n- **Google Nano Banana Pro**（统一计费）\n- **GPT Image 1.5**（OpenAI；使用 OpenAI Key 支持透明 PNG）\n- **Recraft V4**（艺术导向，不透明）\n- **FLUX 2 Klein 9B/4B、FLUX 2 Dev、FLUX-1 schnell**\n- **Lucid Origin、Phoenix 1.0、Dreamshaper 8 LCM、Stable Diffusion XL**\n\nFLUX.2 模型支持最多 4 张参考图像进行图生图（v0.16.0+），客户端会自动下采样到 512px。\n\n## 视频生成功能\n\n项目支持多种视频生成模型（通过 Cloudflare Workflows 实现长时间运行）：\n\n- **Google Veo 3.1 / 3.1 Fast / 3 / 3 Fast**（统一计费）\n- **ByteDance Seedance 2.0 / 2.0 Fast**\n- **MiniMax Hailuo 2.3 / 2.3 Fast**\n- **RunwayML Gen-4.5**\n- **Alibaba HappyHorse 1.0 T2V 和 I2V**（图生视频，v0.21.5+）\n- **PixVerse v6 / v5.6**\n- **Vidu Q3 Pro / Q3 Turbo**\n- **xAI Grok Imagine Video**（自带 API Key）\n\n## 用户界面设计\n\n从 v0.110.0 开始采用聚焦模式重新设计：\n\n- 单栏居中对话布局\n- 浮动输入框\n- 侧边栏（可搜索历史、项目、文档）作为滑入式覆盖层\n- 可搜索模型选择器（输入过滤，v0.111.0+）\n- 顶部栏包含设置弹窗（系统提示词 + 检索开关）和账户菜单\n\n## 安全与隐私\n\n- **Cloudflare Access**：保护整个 Worker URL\n- **用户隔离**：Worker 读取 `Cf-Access-Authenticated-User-Email` 实现按用户隔离历史记录\n- **R2 对象元数据**：R2 对象携带 `customMetadata.user_email`，即使用户猜到 UUID 也无法跨用户访问\n- **客户端视频关键帧提取**：发送 8 个均匀间隔的帧给支持视觉的聊天模型，而非上传完整视频文件\n\n## 实际应用价值\n\n这个项目展示了如何在无服务器架构上构建复杂的 AI 应用：\n\n1. **成本效益**：利用 Cloudflare 的免费额度可以运行相当规模的 AI 服务\n2. **简化部署**：单个 Worker 部署，无需管理复杂的服务器集群\n3. **多模态统一**：在一个界面中统一处理文本、图像、音频、视频等多种模态\n4. **可扩展性**：通过 Cloudflare 的全球网络实现低延迟访问\n5. **隐私保护**：内置用户隔离和访问控制\n\n## 总结\n\nSkyPhusion LLM 是一个技术展示性很强的开源项目，它充分利用了 Cloudflare 生态系统的各种服务，在单个 Worker 上构建了一个功能完整的 AI playground。对于希望了解如何在边缘计算平台上构建多模态 AI 应用的开发者来说，这是一个极佳的学习案例。项目展示了统一接口设计、多提供商集成、RAG 实现、长时间任务处理等关键技术的实际应用。