正文

AI Video Skill：开源Agent工作流实现自动化视频制作

一个通用AI Agent视频制作工作流，支持将脚本、旁白、字幕和HTML动画组合渲染成宣传片或产品演示视频，兼容多种主流AI编程助手。

AI视频制作Agent工作流TTS语音合成CosyVoiceWhisperHyperframes自动化视频开源工具

发布时间 2026/05/19 19:43最近活动 2026/05/19 19:50预计阅读 4 分钟

章节 01

导读 / 主楼：AI Video Skill：开源Agent工作流实现自动化视频制作

一个通用AI Agent视频制作工作流，支持将脚本、旁白、字幕和HTML动画组合渲染成宣传片或产品演示视频，兼容多种主流AI编程助手。

章节 02

项目背景：AI视频制作的痛点

随着AI技术的快速发展，利用大语言模型生成视频脚本、使用TTS技术合成配音已经成为可能。然而，将文本脚本转化为完整视频仍需要复杂的技术栈整合：语音合成、字幕时间轴对齐、动画制作、视频渲染等环节往往分散在不同工具中，需要大量手动操作。

AI Video Skill 项目正是为了解决这一痛点而生——它提供了一个标准化的Agent工作流，让任何支持Markdown指令的AI助手都能自动完成从脚本到成片的完整流程。

章节 03

项目概述

AI Video Skill 是一个通用AI Agent视频制作工作流，核心能力包括：

脚本解析：读取和理解视频脚本（SCRIPT.md）
语音合成：使用CosyVoice生成自然中文配音
字幕生成：通过Whisper自动转写并生成时间戳字幕
动画制作：使用Hyperframes创建HTML/CSS/GSAP动画场景
视频渲染：自动编排场景并输出最终视频

最重要的是，这不是某个特定Agent的专属配置——任何能读取Markdown指令的Agent都可以使用本工作流，包括Codex、Claude Code、Cursor、Aider等主流AI编程助手。

章节 04

默认工具链

项目采用以下开源工具构建完整视频制作流水线：

1. CosyVoice（中文TTS/零样本配音）

CosyVoice是阿里巴巴开源的中文语音合成模型，支持：

高质量中文语音合成
零样本声音克隆（只需3-10秒参考音频）
多情感风格控制
流式推理支持

2. Whisper（旁白转写与字幕时间戳）

OpenAI开源的Whisper模型负责：

将生成的语音转写为文本
自动识别单词级别时间戳
生成标准字幕格式（SRT/VTT/JSON）

3. Hyperframes（HTML动画视频编排与渲染）

Hyperframes是一个基于Web技术的视频渲染引擎：

使用HTML/CSS/GSAP创建动画场景
支持复杂的时序控制和动画编排
通过Playwright截图生成视频帧
集成FFmpeg进行视频编码

4. FFmpeg（音频格式转换与渲染依赖）

业界标准的音视频处理工具，负责：

音频格式转换
视频编码与封装
多轨道音视频合成

章节 05

可配置而非硬编码

很多视频工作流文档会写死作者本机路径，例如固定的CosyVoice目录、conda环境、Hyperframes目录和FFmpeg位置。这个版本把这些内容改为可配置项，通过环境变量管理：

export COSYVOICE_DIR="/path/to/CosyVoice"
export COSYVOICE_ENV="cosyvoice"
export COSYVOICE_PORT="50000"
export COSYVOICE_MODEL_DIR="pretrained_models/CosyVoice2-0.5B"
export HYPERFRAMES_DIR="/path/to/hyperframes"
export HYPERFRAMES_CLI="bun packages/cli/dist/cli.js"
export FFMPEG_BIN="ffmpeg"

这种设计让不同机器、不同操作系统、不同Agent都能按同一套流程执行。

章节 06

Agent友好的文档结构

项目文档分为三个层次：

SKILL.md：核心Agent工作流，包含任务触发描述、制作步骤、命令模板和注意事项
AGENTS.md：面向通用coding agents的入口说明，引导Agent使用SKILL.md
README.md：面向人类使用者的安装、配置说明

这种分层设计确保不同类型的使用者都能找到适合自己的入口。

章节 07

阶段一：环境检查

首次在新机器或新工作区使用时，Agent首先运行环境检查：

python scripts/check_environment.py

该脚本会汇总已安装项、缺失项和建议安装动作。在安装依赖、克隆仓库、下载模型前，Agent必须先征求使用者明确同意。

章节 08

阶段二：项目初始化

创建视频项目文件结构：

project/
├── index.html          # 场景编排主文件
├── DESIGN.md           # 视觉设计文档
├── SCRIPT.md           # 旁白脚本
├── STORYBOARD.md       # 分镜脚本
├── assets/
│   ├── narration.wav   # 生成的配音
│   ├── transcript.json # 字幕时间戳
│   └── reference_voice.wav  # 参考声音（可选）
├── compositions/
│   ├── scene-1.html    # 场景1动画
│   └── captions.html   # 字幕层
└── scripts/
    └── generate_narration.py  # 配音生成脚本