# AI Video Skill：开源Agent工作流实现自动化视频制作

> 一个通用AI Agent视频制作工作流，支持将脚本、旁白、字幕和HTML动画组合渲染成宣传片或产品演示视频，兼容多种主流AI编程助手。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-19T11:43:43.000Z
- 最近活动: 2026-05-19T11:50:45.067Z
- 热度: 159.9
- 关键词: AI视频制作, Agent工作流, TTS语音合成, CosyVoice, Whisper, Hyperframes, 自动化视频, 开源工具
- 页面链接: https://www.zingnex.cn/forum/thread/ai-video-skill-agent
- Canonical: https://www.zingnex.cn/forum/thread/ai-video-skill-agent
- Markdown 来源: ingested_event

---

## 项目背景：AI视频制作的痛点

随着AI技术的快速发展，利用大语言模型生成视频脚本、使用TTS技术合成配音已经成为可能。然而，将文本脚本转化为完整视频仍需要复杂的技术栈整合：语音合成、字幕时间轴对齐、动画制作、视频渲染等环节往往分散在不同工具中，需要大量手动操作。

AI Video Skill 项目正是为了解决这一痛点而生——它提供了一个标准化的Agent工作流，让任何支持Markdown指令的AI助手都能自动完成从脚本到成片的完整流程。

---

## 项目概述

AI Video Skill 是一个通用AI Agent视频制作工作流，核心能力包括：

- **脚本解析**：读取和理解视频脚本（SCRIPT.md）
- **语音合成**：使用CosyVoice生成自然中文配音
- **字幕生成**：通过Whisper自动转写并生成时间戳字幕
- **动画制作**：使用Hyperframes创建HTML/CSS/GSAP动画场景
- **视频渲染**：自动编排场景并输出最终视频

最重要的是，这不是某个特定Agent的专属配置——任何能读取Markdown指令的Agent都可以使用本工作流，包括Codex、Claude Code、Cursor、Aider等主流AI编程助手。

---

## 技术架构与工具链

### 默认工具链

项目采用以下开源工具构建完整视频制作流水线：

#### 1. CosyVoice（中文TTS/零样本配音）

CosyVoice是阿里巴巴开源的中文语音合成模型，支持：

- 高质量中文语音合成
- 零样本声音克隆（只需3-10秒参考音频）
- 多情感风格控制
- 流式推理支持

#### 2. Whisper（旁白转写与字幕时间戳）

OpenAI开源的Whisper模型负责：

- 将生成的语音转写为文本
- 自动识别单词级别时间戳
- 生成标准字幕格式（SRT/VTT/JSON）

#### 3. Hyperframes（HTML动画视频编排与渲染）

Hyperframes是一个基于Web技术的视频渲染引擎：

- 使用HTML/CSS/GSAP创建动画场景
- 支持复杂的时序控制和动画编排
- 通过Playwright截图生成视频帧
- 集成FFmpeg进行视频编码

#### 4. FFmpeg（音频格式转换与渲染依赖）

业界标准的音视频处理工具，负责：

- 音频格式转换
- 视频编码与封装
- 多轨道音视频合成

---

## 核心设计哲学

### 可配置而非硬编码

很多视频工作流文档会写死作者本机路径，例如固定的CosyVoice目录、conda环境、Hyperframes目录和FFmpeg位置。这个版本把这些内容改为可配置项，通过环境变量管理：

```bash
export COSYVOICE_DIR="/path/to/CosyVoice"
export COSYVOICE_ENV="cosyvoice"
export COSYVOICE_PORT="50000"
export COSYVOICE_MODEL_DIR="pretrained_models/CosyVoice2-0.5B"
export HYPERFRAMES_DIR="/path/to/hyperframes"
export HYPERFRAMES_CLI="bun packages/cli/dist/cli.js"
export FFMPEG_BIN="ffmpeg"
```

这种设计让不同机器、不同操作系统、不同Agent都能按同一套流程执行。

### Agent友好的文档结构

项目文档分为三个层次：

- **SKILL.md**：核心Agent工作流，包含任务触发描述、制作步骤、命令模板和注意事项
- **AGENTS.md**：面向通用coding agents的入口说明，引导Agent使用SKILL.md
- **README.md**：面向人类使用者的安装、配置说明

这种分层设计确保不同类型的使用者都能找到适合自己的入口。

---

## 工作流程详解

### 阶段一：环境检查

首次在新机器或新工作区使用时，Agent首先运行环境检查：

```bash
python scripts/check_environment.py
```

该脚本会汇总已安装项、缺失项和建议安装动作。在安装依赖、克隆仓库、下载模型前，Agent必须先征求使用者明确同意。

### 阶段二：项目初始化

创建视频项目文件结构：

```
project/
├── index.html          # 场景编排主文件
├── DESIGN.md           # 视觉设计文档
├── SCRIPT.md           # 旁白脚本
├── STORYBOARD.md       # 分镜脚本
├── assets/
│   ├── narration.wav   # 生成的配音
│   ├── transcript.json # 字幕时间戳
│   └── reference_voice.wav  # 参考声音（可选）
├── compositions/
│   ├── scene-1.html    # 场景1动画
│   └── captions.html   # 字幕层
└── scripts/
    └── generate_narration.py  # 配音生成脚本
```

### 阶段三：内容生成

1. **编写脚本**：Agent协助编写SCRIPT.md、DESIGN.md和STORYBOARD.md
2. **生成配音**：使用CosyVoice生成assets/narration.wav
3. **生成字幕**：使用Whisper生成assets/transcript.json
4. **制作场景**：在compositions/中制作Hyperframes动画场景
5. **编排场景**：在index.html中编排场景和音频

### 阶段四：渲染输出

运行Hyperframes的lint、preview和render命令：

```bash
bun packages/cli/dist/cli.js lint
bun packages/cli/dist/cli.js preview
bun packages/cli/dist/cli.js render
```

依赖缺失时，Agent会清楚说明缺少什么，不会假设作者机器上的路径存在。

---

## 安装与使用

### 通用安装方式

```bash
git clone https://github.com/HuangZhanQi/ai-video-skill.git
cd ai-video-skill
cp .env.example .env
```

如果你的Agent支持自定义instruction/workflow目录，把本仓库放到对应目录即可。

### Codex / OpenAI Skills兼容安装

```bash
mkdir -p ~/.codex/skills
git clone https://github.com/HuangZhanQi/ai-video-skill.git ~/.codex/skills/ai-video
```

### 前置依赖

本仓库不捆绑CosyVoice、Hyperframes、Whisper模型或FFmpeg。使用前需要在本机准备：

- Python 3.10+
- Conda或其他Python环境管理工具
- CosyVoice 2及其模型
- Whisper Python包与模型下载权限
- Bun（JavaScript运行时）
- Hyperframes
- FFmpeg

---

## 项目价值与应用场景

### 适用场景

- 产品宣传片制作
- 产品演示视频
- 教学/教程视频
- 营销短视频
- 内部培训材料

### 核心价值

1. **自动化**：将原本需要多步骤手动操作的视频制作流程自动化
2. **标准化**：建立可重复执行的视频制作标准流程
3. **可扩展**：支持不同机器、不同Agent使用同一套流程
4. **开源**：MIT许可证允许自由复用和修改

---

## 技术亮点与创新点

### 1. Agent原生设计

不同于传统视频工具面向人类用户设计，本项目从底层就是为AI Agent使用而设计。文档结构、命令模板、错误处理都考虑了Agent的认知特点。

### 2. 环境感知能力

通过环境检查脚本，Agent能够感知当前环境的配置状态，智能决定下一步行动，而非盲目执行预设命令。

### 3. 跨平台兼容

通过环境变量抽象本地路径，项目实现了真正的跨平台兼容。Windows用户可以使用PowerShell设置环境变量，Linux/macOS用户使用Bash。

### 4. 安全的设计原则

- 不提交私人声音样本、客户素材或渲染视频
- 不在工作流文件中写死个人绝对路径
- SKILL.md保持为可执行的Agent指令
- README只放面向使用者的说明

---

## 结语

AI Video Skill项目展示了AI Agent在内容创作领域的巨大潜力。通过标准化的工作流设计，复杂的视频制作流程可以被自动化、可重复地执行。这不仅提高了生产效率，也为非专业视频制作者提供了创作高质量视频的可能性。

对于希望探索AI视频制作、构建自动化内容生产流程的开发者，这是一个值得关注和尝试的开源项目。