# Text-to-3D电影生成器：将文字转化为可探索的3D电影场景

> 一个自动化的文本到3D电影管道，使用LLM和生成式AI将书籍转化为可探索的电影，处理3D网格生成、场景合成和时间轴逻辑

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-05-28T23:15:12.000Z
- 最近活动: 2026-05-28T23:22:22.688Z
- 热度: 159.9
- 关键词: 文本到3D, 生成式AI, LLM应用, GLB模型, Three.js, FastAPI, 电影生成, Stable Fast 3D
- 页面链接: https://www.zingnex.cn/forum/thread/text-to-3d-3d
- Canonical: https://www.zingnex.cn/forum/thread/text-to-3d-3d
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**: Hack-a-tons
- **来源平台**: GitHub
- **原始标题**: movie
- **原始链接**: https://github.com/Hack-a-tons/movie
- **发布时间**: 2026年5月28日

## 项目概述与愿景

在生成式AI技术飞速发展的今天，我们见证了文本生成图像、图像生成视频的技术突破。然而，将完整的文字内容（如书籍）转化为可交互、可探索的3D电影体验，仍然是一个充满挑战的课题。Hack-a-tons团队开发的movie项目正是朝着这个方向迈出的重要一步。

该项目构建了一个自动化的文本到3D电影管道，利用大型语言模型（LLM）和生成式AI技术，将书籍内容转化为可探索的电影场景。系统处理从3D网格生成（GLB格式）、场景合成到时间轴逻辑的完整流程，最终渲染出可在浏览器中无缝播放的非交互式machinima环境。

## 核心功能与使用场景

### 面向消费者的简化流程

项目的默认公开界面是画廊页面（gallery），而创作流程（create）则是一个简洁的iPhone友好界面：

1. 用户输入一个电影提示词
2. 服务器检查Prampta许可（检测已注册主题）
3. 获得可在浏览器中播放的电影/3D场景预览

这种设计让普通用户无需任何技术背景，只需输入一段文字描述，就能生成属于自己的3D电影场景。

### 专业级制作工作空间

对于需要更多控制的专业用户，系统提供了详细的制作工作空间（Pro页面）。当前版本支持登录用户输入提示词后，观看分阶段管道自动创建：

- **场景和分镜拆分**: 将故事分解为多个场景
- **场景/地点圣经**: 建立详细的场景设定文档
- **物体/道具圣经**: 记录场景中需要的所有道具
- **常驻角色圣经**: 建立角色档案和外观设定
- **参考图像提示词**: 为3D资产生成准备参考
- **GLB导向的3D模型清单**: 包含真实世界尺寸的模型规格
- **动画轨道**: 定义角色和物体的运动轨迹
- **渲染时间轴和组装清单**: 最终的合成指导

管道在后台持续运行，而Web UI实时显示进度。用户可以取消或重新运行项目，但审核不会阻塞生成流程。

## 技术架构与实现细节

### 后端API与数据管理

系统基于FastAPI构建项目API，使用JSON文件管理项目状态，存储在MOVIE_DATA_DIR指定的目录下。这种设计选择提供了：

- 确定性的文本到生产包管道
- 简单可靠的状态持久化
- 易于调试和版本控制

### 前端界面设计

项目采用了现代化的响应式设计：

- **暗色主题**: 专业的iPhone优先创作/画廊UI
- **详细的生产工作室**: 位于Pro页面的专业级控制界面
- **默认公开的画廊**: 展示社区生成的作品
- **标签式导航**: Gallery、Create、History、Pro四个主要视图，每个都有独立URL
- **自适应布局**: 竖屏底部标签栏，横屏右侧标签栏

### 身份验证与权限

系统集成Google/Apple Firebase登录，用于保护创作者视图：
- Apple登录优先于Google登录显示
- 登录后可查看历史记录、项目所有权
- 支持私有/公开切换和删除功能

### 许可与合规

项目在生成资产工作之前，通过api2.prampta.com进行服务器端Prampta许可门控。Prampta决策元数据会与海报、提供商资产、工作负载和返回的工作资产一起持久化存储。这种设计确保了生成内容的合规性。

## 3D资产生成管道

### 参考图像生成

系统支持多种提供商实验路径：
- 参考图像生成
- 文本到3D
- 图像到3D
- 视频预览路由

生成的参考图像和提供商提示词会作为上下文/工件包含在新的GPU工作负载中。

### GPU工作队列

项目实现了共享GPU队列，用于远程图像/文本到3D工作器：

- 支持多用户排队生成，提供队列位置反馈
- 支持按请求删除和GPU作业取消
- 当外部GPU工作器失败时，服务器CPU回退GLB生成

### Mac工作器与Stable Fast 3D

项目提供了专门的Mac工作器支持：

- 一键Mac工作器包装器位于scripts/run_mac_worker.zsh
- 默认Mac工作器使用Stable Fast 3D处理器
- 从上传的光栅图像重建浏览器可加载的GLB几何体
- 支持每主题裁剪准备，使用Azure/服务器视觉边界框

Mac端SF3D输入标准化为透明方形PNG，在16GB M2 Pro上默认为512px。即使在MPS内存压力下部分裁剪失败，也能保留部分结果。

### 浏览器3D预览

系统提供了丰富的3D预览功能：

- 浏览器GLB预览缩略图
- 返回的模型截图行
- 专用模型查看器页面
- 基于Three.js的3D场景播放器，包含房间、生成的角色绑定、舞蹈循环和相机路径
- Pro页面中的实时画布舞台预览

## 部署与运维

### 本地开发

```bash
python3 -m venv .venv
. .venv/bin/activate
pip install -r requirements-api.txt
PIPELINE_STEP_DELAY_SECONDS=0.3 python -m api.main
```

本地服务运行在http://127.0.0.1:21000，可访问：
- 主页、Pro工作室、画廊、创作页面、历史记录

### 冒烟测试

```bash
./tests.sh
```

测试默认使用22000端口，可与本地工作室的21000端口同时运行。

### CLI工具

项目提供了便捷的命令行接口：

```bash
./movie.sh health                    # 健康检查
./movie.sh create "Demo Book" ./story.txt  # 创建项目
./movie.sh list                      # 列出项目
./movie.sh show PROJECT_ID           # 查看项目
./movie.sh manifest PROJECT_ID       # 查看清单
```

### Docker与生产部署

复制.env.example到.env进行Docker/部署配置。重要默认配置包括：

- MOVIE_DOMAIN=movie.hurated.com
- API_DOMAIN=api.movie.hurated.com
- API_PORT=21000
- MOVIE_DATA_DIR=/var/www/movie-hurated/state

项目已部署在movie.hurated.com和api.movie.hurated.com，使用certbot管理的nginx配置。

## 当前状态与路线图

### 已实现功能

- ✅ FastAPI项目API
- ✅ JSON文件项目状态管理
- ✅ 确定性文本到生产包管道
- ✅ iPhone优先的暗色主题UI
- ✅ Firebase身份验证
- ✅ Prampta许可集成
- ✅ 公共观看页面和画廊
- ✅ GPU工作队列和Mac工作器支持
- ✅ Three.js 3D场景播放器
- ✅ Docker/Compose/部署助手
- ✅ HTTPS生产部署

### 待实现功能

- ⏳ 真实渲染视频文件
- ⏳ 提供商支持的LLM重写
- ⏳ 默认自动视频预览调度
- ⏳ 图像到GLB重建前的更高质量检测/分割
- ⏳ 通用绑定/动画提供商
- ⏳ 纯提示词文本到3D（无需先生成光栅参考图像）
- ⏳ 渲染工作器
- ⏳ 计费系统
- ⏳ PostgreSQL持久队列

## 项目价值与启示

movie项目展示了生成式AI在内容创作领域的巨大潜力。它不仅是一个技术演示，更是一个完整的产品级实现，涵盖了从用户界面到后端管道、从身份验证到许可合规的完整链条。

对于希望构建类似文本到3D/视频生成系统的开发者，该项目提供了：

1. **完整的架构参考**: 从消费者界面到专业工作室的分层设计
2. **GPU工作队列模式**: 处理昂贵AI任务的有效方式
3. **多平台工作器支持**: 云端GPU与本地Mac工作器的混合部署
4. **合规集成示例**: Prampta许可门的实现方式
5. **浏览器3D播放**: Three.js与GLB格式的最佳实践

## 关键要点总结

- **技术栈**: Python/FastAPI、Three.js、Stable Fast 3D、Firebase
- **核心能力**: 文本到3D电影管道、GLB生成、浏览器播放
- **架构亮点**: 分阶段管道、GPU队列、Mac工作器支持
- **适用场景**: 书籍可视化、3D内容创作、自动化电影生成
- **部署状态**: 已生产部署于movie.hurated.com
