# SkyPhusion：基于Cloudflare Worker的全功能多模态AI playground开源方案

> SkyPhusion开源了一个部署在单个Cloudflare Worker上的多模态AI playground，支持35个聊天模型的语音对话、图像/视频/音乐生成、RAG检索、项目管理和网络搜索，展示了边缘计算平台上构建复杂AI应用的新范式。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-03T17:39:21.000Z
- 最近活动: 2026-06-03T17:52:06.964Z
- 热度: 150.8
- 关键词: 多模态AI, Cloudflare Worker, 边缘计算, 语音对话, RAG检索, 图像生成, 视频生成, 开源项目
- 页面链接: https://www.zingnex.cn/forum/thread/skyphusion-cloudflare-workerai-playground
- Canonical: https://www.zingnex.cn/forum/thread/skyphusion-cloudflare-workerai-playground
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：SkyPhusion
- 来源平台：github
- 原始标题：skyphusion-llm-public
- 原始链接：https://github.com/SkyPhusion/skyphusion-llm-public
- 来源发布时间/更新时间：2026-06-03T17:39:21Z

## 原作者与来源\n\n- 原作者/维护者：SkyPhusion\n- 来源平台：GitHub\n- 原始标题：skyphusion-llm-public: Multimodal AI playground in one Cloudflare Worker\n- 原始链接：https://github.com/SkyPhusion/skyphusion-llm-public\n- 来源发布时间/更新时间：2026-06-03\n\n## 项目概述\n\nSkyPhusion是一个功能丰富的多模态AI playground，完全部署在单个Cloudflare Worker上。该项目展示了如何在边缘计算平台上构建复杂的AI应用，无需传统服务器架构即可实现聊天、语音交互、图像生成、视频生成、音乐创作、RAG检索增强生成等全栈AI功能。\n\n项目最引人注目的特点是其"全合一"架构设计——所有功能都运行在一个Cloudflare Worker中，利用Cloudflare的边缘AI基础设施实现低延迟、高可用的AI服务。\n\n## 核心功能特性\n\n### 多模型聊天支持（35个模型，5个提供商）\n\nSkyPhusion集成了来自5个主流AI提供商的35个聊天模型，所有模型均支持流式输出：\n\n**Workers AI模型**：\n- Llama 4 Scout、Llama 3.x系列\n- Qwen3 30B、QwQ 32B、Qwen2.5 Coder 32B\n- DeepSeek R1、Mistral Small 3.1\n- Gemma 4 26B、Gemma 3 12B、Granite 4 Micro\n- Nemotron 3 120B、GLM-4.7 Flash、Hermes 2 Pro\n- GPT-OSS 120B/20B、Kimi K2.6\n\n**Anthropic Claude（统一计费）**：\n- Opus 4.8、Opus 4.7、Opus 4.6\n- Sonnet 4.6、Haiku 4.5\n\n**xAI Grok（自带密钥）**：\n- Grok 4.3、Grok 4.20（多代理和推理）\n- Grok Build 0.1\n\n**OpenAI（统一计费）**：\n- GPT-5.5、GPT-5.4、GPT-5.4 mini、o4-mini\n\n**Google Gemini（统一计费）**：\n- Gemini 3.1 Pro\n\n### 语音聊天功能\n\n项目的一大亮点是支持"免提语音对话"功能。用户可以通过麦克风与任意35个聊天模型进行语音交互：\n\n1. 用户语音通过Deepgram Flux进行实时流式语音识别\n2. 转录文本通过标准聊天路径发送给选定的AI模型\n3. 模型回复通过Aura-2 TTS转换为语音播放\n\n整个流程完全在Cloudflare基础设施上运行，无需第三方STT/TTS服务，对话历史会像普通聊天一样保存。\n\n### 多模态内容生成\n\n**图像生成**：\n- Google Nano Banana Pro（统一计费）\n- GPT Image 1.5（OpenAI，支持透明PNG）\n- Recraft V4（艺术导向）\n- FLUX 2系列（Klein 9B/4B、Dev、schnell）\n- Lucid Origin、Phoenix 1.0、Dreamshaper 8 LCM\n\nFLUX.2模型支持图像到图像生成，最多可使用4张参考图像。\n\n**视频生成**：\n- Google Veo 3.1/3.1 Fast/3/3 Fast\n- ByteDance Seedance 2.0/2.0 Fast\n- MiniMax Hailuo 2.3/2.3 Fast\n- RunwayML Gen-4.5、Alibaba HappyHorse 1.0\n- PixVerse v6/v5.6、Vidu Q3 Pro/Q3 Turbo\n- xAI Grok Imagine Video\n\n视频生成通过Cloudflare Workflows实现持久化处理，支持30秒到3分钟的长时任务。\n\n**音乐生成**：\n- MiniMax Music 2.6（统一计费）\n\n**语音合成与识别**：\n- TTS：Aura-2 EN/ES、MeloTTS\n- STT：Whisper Large v3 Turbo/Whisper/Whisper Tiny EN\n- 实时对话STT：Deepgram Flux支持WebSocket流式识别和实时话轮检测\n\n### RAG检索增强生成\n\n项目实现了完整的RAG功能：\n\n- 支持上传任意类型文件（PDF、Excel、CSV、JSON、HTML、源代码等）\n- PDF按页提取，电子表格按工作表提取\n- 使用BGE-base模型生成768维向量嵌入\n- 向量存储在Cloudflare Vectorize中，文本存储在D1数据库\n- 支持.zip批量导入（每个内部文件成为独立文档）\n- 每轮对话可切换\"使用我的文档\"，将Top-5相关块注入系统提示\n\n### 项目与知识库管理\n\n支持创建命名项目来组织文档和对话：\n- 每个项目有独立的默认系统提示和检索范围\n- 文档可属于多个项目\n- 选择项目后，\"使用我的文档\"仅检索该项目文档\n- 支持将对话在项目间移动\n- 支持导入Discord聊天记录（通过DiscordChatExporter JSON导出）\n\n### 网络搜索集成\n\n可选的检索源，并行查询Tavily（通用网络）和Wikipedia（参考和百科）：\n- 搜索结果片段像RAG块一样注入系统提示\n- 每轮可切换\n- Tavily需要API密钥，Wikipedia无需配置\n\n## 技术架构亮点\n\n### 统一的AI调用接口\n\n所有模态通过统一的`env.AI.run()`绑定驱动：聊天、视觉输入、图像生成、TTS、STT、语音聊天、视频生成、音乐生成。这种设计大大简化了多模态应用的开发复杂度。\n\n### 按提供商的调度助手\n\n为Anthropic Claude、xAI Grok、Gemini等提供商实现了专门的调度助手，将内部`messages`格式转换为各提供商的API格式。OpenAI和Workers AI直接使用`env.AI.run`绑定。\n\n### SSE流式传输\n\n支持所有5个提供商的聊天模型的SSE流式输出：\n- Anthropic原生SSE\n- Workers AI OpenAI兼容SSE\n- xAI OpenAI兼容SSE\n- OpenAI代理（基于绑定）\n- Gemini（基于绑定）\n\n### AI Gateway集成\n\n每个调用都通过AI Gateway包装，实现可观测性、缓存和速率限制。\n\n### 数据存储架构\n\n- **D1数据库**：存储聊天元数据、多轮对话历史、RAG块文本\n- **R2对象存储**：存储所有二进制产物（图像、音频、视频）\n- **Vectorize**：存储RAG向量嵌入\n\n聊天行引用R2密钥，二进制数据不进入D1。\n\n### Cloudflare Workflows\n\n用于处理长时间运行的统一计费视频和音乐生成任务（30秒到3分钟）。`LongRunWorkflow`类保持阻塞式`env.AI.run`调用跨步骤边界存活，这是`ctx.waitUntil`无法实现的。\n\n### 安全与访问控制\n\n- **Cloudflare Access**：保护整个Worker URL\n- 读取`Cf-Access-Authenticated-User-Email`实现每用户历史隔离\n- R2对象携带`customMetadata.user_email`，即使用户猜到UUID也无法跨用户访问\n\n### 客户端视频处理\n\n视频关键帧提取在客户端完成，发送8个均匀分布的帧给视觉模型，而非上传完整视频文件，显著降低带宽和存储成本。\n\n## UI设计\n\n项目采用专注模式重新设计（v0.110.0+）：\n- 单列居中对话布局，浮动输入框\n- 侧边栏（可搜索历史、项目、文档）为滑入覆盖层\n- 可搜索模型选择器（输入过滤，v0.111.0）\n- 顶部栏包含设置弹窗（系统提示+检索切换）和账户菜单\n- 回形针附件按钮和语音聊天麦克风\n- 能力感知模式切换（仅视觉附件类型）\n\n## 部署与使用\n\n项目作为Cloudflare Worker模板，开发者可以：\n\n1. 克隆仓库并配置环境变量\n2. 使用Wrangler部署到Cloudflare\n3. 配置Cloudflare Access进行身份验证\n4. 添加所需的API密钥（OpenAI、xAI、Tavily等）\n5. 开始使用多模态AI playground\n\n项目采用AGPL v3许可证开源，鼓励社区贡献和二次开发。\n\n## 实践意义\n\nSkyPhusion展示了边缘AI平台的新可能性：\n\n1. **降低AI应用门槛**：单个Worker即可运行复杂的AI应用，无需管理服务器集群\n2. **多模型策略**：轻松对比35个不同模型的表现，为特定任务选择最佳模型\n3. **成本优化**：利用Cloudflare的统一计费模型，降低多模态AI的使用成本\n4. **隐私保护**：数据在Cloudflare边缘处理，减少向第三方传输敏感信息\n5. **快速原型**：为AI应用开发者提供了完整的功能参考实现\n\n对于希望构建多模态AI应用的开发者，SkyPhusion是一个极佳的学习案例和起点。