Zing 论坛

正文

AI Video Skill:开源Agent工作流实现自动化视频制作

一个通用AI Agent视频制作工作流,支持将脚本、旁白、字幕和HTML动画组合渲染成宣传片或产品演示视频,兼容多种主流AI编程助手。

AI视频制作Agent工作流TTS语音合成CosyVoiceWhisperHyperframes自动化视频开源工具
发布时间 2026/05/19 19:43最近活动 2026/05/19 19:50预计阅读 4 分钟
AI Video Skill:开源Agent工作流实现自动化视频制作
1

章节 01

导读 / 主楼:AI Video Skill:开源Agent工作流实现自动化视频制作

一个通用AI Agent视频制作工作流,支持将脚本、旁白、字幕和HTML动画组合渲染成宣传片或产品演示视频,兼容多种主流AI编程助手。

2

章节 02

项目背景:AI视频制作的痛点

随着AI技术的快速发展,利用大语言模型生成视频脚本、使用TTS技术合成配音已经成为可能。然而,将文本脚本转化为完整视频仍需要复杂的技术栈整合:语音合成、字幕时间轴对齐、动画制作、视频渲染等环节往往分散在不同工具中,需要大量手动操作。

AI Video Skill 项目正是为了解决这一痛点而生——它提供了一个标准化的Agent工作流,让任何支持Markdown指令的AI助手都能自动完成从脚本到成片的完整流程。


3

章节 03

项目概述

AI Video Skill 是一个通用AI Agent视频制作工作流,核心能力包括:

  • 脚本解析:读取和理解视频脚本(SCRIPT.md)
  • 语音合成:使用CosyVoice生成自然中文配音
  • 字幕生成:通过Whisper自动转写并生成时间戳字幕
  • 动画制作:使用Hyperframes创建HTML/CSS/GSAP动画场景
  • 视频渲染:自动编排场景并输出最终视频

最重要的是,这不是某个特定Agent的专属配置——任何能读取Markdown指令的Agent都可以使用本工作流,包括Codex、Claude Code、Cursor、Aider等主流AI编程助手。


4

章节 04

默认工具链

项目采用以下开源工具构建完整视频制作流水线:

1. CosyVoice(中文TTS/零样本配音)

CosyVoice是阿里巴巴开源的中文语音合成模型,支持:

  • 高质量中文语音合成
  • 零样本声音克隆(只需3-10秒参考音频)
  • 多情感风格控制
  • 流式推理支持

2. Whisper(旁白转写与字幕时间戳)

OpenAI开源的Whisper模型负责:

  • 将生成的语音转写为文本
  • 自动识别单词级别时间戳
  • 生成标准字幕格式(SRT/VTT/JSON)

3. Hyperframes(HTML动画视频编排与渲染)

Hyperframes是一个基于Web技术的视频渲染引擎:

  • 使用HTML/CSS/GSAP创建动画场景
  • 支持复杂的时序控制和动画编排
  • 通过Playwright截图生成视频帧
  • 集成FFmpeg进行视频编码

4. FFmpeg(音频格式转换与渲染依赖)

业界标准的音视频处理工具,负责:

  • 音频格式转换
  • 视频编码与封装
  • 多轨道音视频合成

5

章节 05

可配置而非硬编码

很多视频工作流文档会写死作者本机路径,例如固定的CosyVoice目录、conda环境、Hyperframes目录和FFmpeg位置。这个版本把这些内容改为可配置项,通过环境变量管理:

export COSYVOICE_DIR="/path/to/CosyVoice"
export COSYVOICE_ENV="cosyvoice"
export COSYVOICE_PORT="50000"
export COSYVOICE_MODEL_DIR="pretrained_models/CosyVoice2-0.5B"
export HYPERFRAMES_DIR="/path/to/hyperframes"
export HYPERFRAMES_CLI="bun packages/cli/dist/cli.js"
export FFMPEG_BIN="ffmpeg"

这种设计让不同机器、不同操作系统、不同Agent都能按同一套流程执行。

6

章节 06

Agent友好的文档结构

项目文档分为三个层次:

  • SKILL.md:核心Agent工作流,包含任务触发描述、制作步骤、命令模板和注意事项
  • AGENTS.md:面向通用coding agents的入口说明,引导Agent使用SKILL.md
  • README.md:面向人类使用者的安装、配置说明

这种分层设计确保不同类型的使用者都能找到适合自己的入口。


7

章节 07

阶段一:环境检查

首次在新机器或新工作区使用时,Agent首先运行环境检查:

python scripts/check_environment.py

该脚本会汇总已安装项、缺失项和建议安装动作。在安装依赖、克隆仓库、下载模型前,Agent必须先征求使用者明确同意。

8

章节 08

阶段二:项目初始化

创建视频项目文件结构:

project/
├── index.html          # 场景编排主文件
├── DESIGN.md           # 视觉设计文档
├── SCRIPT.md           # 旁白脚本
├── STORYBOARD.md       # 分镜脚本
├── assets/
│   ├── narration.wav   # 生成的配音
│   ├── transcript.json # 字幕时间戳
│   └── reference_voice.wav  # 参考声音(可选)
├── compositions/
│   ├── scene-1.html    # 场景1动画
│   └── captions.html   # 字幕层
└── scripts/
    └── generate_narration.py  # 配音生成脚本