Zing 论坛

正文

SkyPhusion:基于Cloudflare Worker的全功能多模态AI playground开源方案

SkyPhusion开源了一个部署在单个Cloudflare Worker上的多模态AI playground,支持35个聊天模型的语音对话、图像/视频/音乐生成、RAG检索、项目管理和网络搜索,展示了边缘计算平台上构建复杂AI应用的新范式。

多模态AICloudflare Worker边缘计算语音对话RAG检索图像生成视频生成开源项目
发布时间 2026/06/04 01:39最近活动 2026/06/04 01:52预计阅读 3 分钟
SkyPhusion:基于Cloudflare Worker的全功能多模态AI playground开源方案
1

章节 01

SkyPhusion导读:基于Cloudflare Worker的全功能多模态AI playground开源方案

SkyPhusion是一个部署在单个Cloudflare Worker上的全功能多模态AI playground开源项目,支持35个聊天模型的语音对话、图像/视频/音乐生成、RAG检索、项目管理和网络搜索,展示了边缘计算平台构建复杂AI应用的新范式。项目由SkyPhusion维护,开源于GitHub,采用AGPL v3许可证。

3

章节 03

核心功能特性(证据)

  1. 多模型聊天:支持5个提供商的35个模型(含Workers AI、Anthropic Claude、xAI Grok等),均支持流式输出;2. 语音对话:免提交互(Deepgram Flux实时STT+Aura-2 TTS);3. 多模态生成:图像(FLUX 2系列等)、视频(Google Veo 3.1等)、音乐(MiniMax Music 2.6);4. RAG检索:文件上传(PDF/Excel等)、向量嵌入(BGE-base)、Vectorize存储;5. 项目管理:命名项目组织文档与对话;6. 网络搜索:Tavily+Wikipedia并行查询。
4

章节 04

技术架构实现方法

  1. 统一接口:通过env.AI.run()绑定驱动所有模态;2. 调度助手:适配Anthropic Claude、xAI Grok等提供商API;3. 流式传输:支持5个提供商的SSE流式输出;4. AI Gateway:实现可观测性、缓存和速率限制;5. 存储架构:D1(元数据/对话)、R2(二进制产物)、Vectorize(向量嵌入);6. 长任务处理:Cloudflare Workflows;7. 安全控制:Cloudflare Access隔离用户数据;8. 客户端优化:视频关键帧提取降低带宽成本。
5

章节 05

UI设计特点

采用专注模式布局:单列居中对话+浮动输入框;滑入式侧边栏(历史/项目/文档搜索);可搜索模型选择器;顶部栏含设置弹窗与账户菜单;支持附件上传与语音麦克风;能力感知模式切换(仅显示适用附件类型)。

6

章节 06

部署与使用建议

部署步骤:1. 克隆仓库并配置环境变量;2. Wrangler部署到Cloudflare;3. 配置Cloudflare Access身份验证;4. 添加API密钥(OpenAI/xAI/Tavily等)。项目采用AGPL v3许可证,鼓励社区贡献与二次开发。

7

章节 07

实践意义与结论

SkyPhusion展示边缘AI新可能性:1. 降低门槛(单Worker运行复杂AI应用);2. 多模型策略(对比35个模型选最佳);3. 成本优化(Cloudflare统一计费);4. 隐私保护(边缘处理减少第三方传输);5. 快速原型(完整功能参考实现)。是多模态AI应用开发者的极佳学习案例与起点。