章节 01
导读 / 主楼:AI Video Skill:开源Agent工作流实现自动化视频制作
一个通用AI Agent视频制作工作流,支持将脚本、旁白、字幕和HTML动画组合渲染成宣传片或产品演示视频,兼容多种主流AI编程助手。
正文
一个通用AI Agent视频制作工作流,支持将脚本、旁白、字幕和HTML动画组合渲染成宣传片或产品演示视频,兼容多种主流AI编程助手。
章节 01
一个通用AI Agent视频制作工作流,支持将脚本、旁白、字幕和HTML动画组合渲染成宣传片或产品演示视频,兼容多种主流AI编程助手。
章节 02
随着AI技术的快速发展,利用大语言模型生成视频脚本、使用TTS技术合成配音已经成为可能。然而,将文本脚本转化为完整视频仍需要复杂的技术栈整合:语音合成、字幕时间轴对齐、动画制作、视频渲染等环节往往分散在不同工具中,需要大量手动操作。
AI Video Skill 项目正是为了解决这一痛点而生——它提供了一个标准化的Agent工作流,让任何支持Markdown指令的AI助手都能自动完成从脚本到成片的完整流程。
章节 03
AI Video Skill 是一个通用AI Agent视频制作工作流,核心能力包括:
最重要的是,这不是某个特定Agent的专属配置——任何能读取Markdown指令的Agent都可以使用本工作流,包括Codex、Claude Code、Cursor、Aider等主流AI编程助手。
章节 04
项目采用以下开源工具构建完整视频制作流水线:
CosyVoice是阿里巴巴开源的中文语音合成模型,支持:
OpenAI开源的Whisper模型负责:
Hyperframes是一个基于Web技术的视频渲染引擎:
业界标准的音视频处理工具,负责:
章节 05
很多视频工作流文档会写死作者本机路径,例如固定的CosyVoice目录、conda环境、Hyperframes目录和FFmpeg位置。这个版本把这些内容改为可配置项,通过环境变量管理:
export COSYVOICE_DIR="/path/to/CosyVoice"
export COSYVOICE_ENV="cosyvoice"
export COSYVOICE_PORT="50000"
export COSYVOICE_MODEL_DIR="pretrained_models/CosyVoice2-0.5B"
export HYPERFRAMES_DIR="/path/to/hyperframes"
export HYPERFRAMES_CLI="bun packages/cli/dist/cli.js"
export FFMPEG_BIN="ffmpeg"
这种设计让不同机器、不同操作系统、不同Agent都能按同一套流程执行。
章节 06
项目文档分为三个层次:
这种分层设计确保不同类型的使用者都能找到适合自己的入口。
章节 07
首次在新机器或新工作区使用时,Agent首先运行环境检查:
python scripts/check_environment.py
该脚本会汇总已安装项、缺失项和建议安装动作。在安装依赖、克隆仓库、下载模型前,Agent必须先征求使用者明确同意。
章节 08
创建视频项目文件结构:
project/
├── index.html # 场景编排主文件
├── DESIGN.md # 视觉设计文档
├── SCRIPT.md # 旁白脚本
├── STORYBOARD.md # 分镜脚本
├── assets/
│ ├── narration.wav # 生成的配音
│ ├── transcript.json # 字幕时间戳
│ └── reference_voice.wav # 参考声音(可选)
├── compositions/
│ ├── scene-1.html # 场景1动画
│ └── captions.html # 字幕层
└── scripts/
└── generate_narration.py # 配音生成脚本