正文

Gemini YouTube Automation：全自动AI视频创作与发布系统

一个完全自主的AI智能体，每天自动生成教育视频内容、渲染专业视频并上传至YouTube，无需人工干预。

AI Agent自动化YouTubeGemini视频生成内容创作GitHub Actions教育科技多模态AIMoviePy

发布时间 2026/06/13 16:15最近活动 2026/06/13 16:19预计阅读 3 分钟

章节 01

【导读】Gemini YouTube Automation：全自动AI视频创作与发布系统

原作者/维护者：ChaitanyaEswarRajeshJakki 来源平台：GitHub 原始链接：https://github.com/ChaitanyaEswarRajeshJakki/gemini-youtube-automation

Gemini YouTube Automation是基于Python开发的完全自主AI智能体项目，利用Google Gemini 2.5 Flash大语言模型与GitHub Actions实现全自动化定时任务，可零人工干预下每天生成教育视频、渲染专业视频并上传至YouTube。该项目为端到端自动化管道，覆盖内容规划到发布全流程，目前获287个Star和136个Fork，社区关注度高。

章节 02

项目背景与定位

在AI重塑内容创作领域的当下，Gemini YouTube Automation定位为完整的端到端自动化管道，不仅是视频生成工具，更整合内容规划、脚本撰写、音频合成、视觉渲染到发布的所有环节。项目正在制作"AI for Developers"系列课程，涵盖生成式AI、大语言模型、提示工程等多个主题，解决教育内容生产效率问题。

章节 03

核心工作流程解析

系统每天UTC7:00触发，流程如下：

读取content_plan.json选择待处理课程主题；
调用Gemini 2.5 Flash生成7-8张幻灯片的脚本、Shorts摘要、标签及元数据；
gTTS转换脚本为语音旁白，Pexels API获取匹配背景图；
MoviePy+FFmpeg渲染横版（1920×1080）和竖版（1080×1920）视频；
混音旁白与背景音乐，生成自定义缩略图；
YouTube Data API v3上传视频，更新content_plan标记为已完成并提交仓库。

章节 04

技术架构与关键组件

AI内容生成：Google Gemini 2.5 Flash（兼顾质量与成本，长上下文+结构化输出）；
语音合成：gTTS（免费轻量，适合自动化场景）；
视频渲染：MoviePy+FFmpeg（精细控制视频/音频，支持双格式输出）；
视觉素材：Pexels API（高质量CC0图片）；
基础设施：GitHub Actions（零服务器成本，定时触发+Secrets管理敏感信息）。

章节 05

部署与配置指南

部署步骤：

克隆仓库并安装依赖（moviepy、gTTS、Pillow等）；
设置GitHub Secrets：Google API Key、Pexels API Key、Base64编码的OAuth凭证（client_secrets.json、credentials.json）；
本地测试：运行python main.py；
生产运行：GitHub Actions每天UTC7:00自动触发；
配额处理：每个周期仅上传1个长视频+1个Shorts，避免YouTube API限流。

章节 06

应用场景与扩展潜力

应用场景：教育内容创作者自动化运营（技术讲师、在线教育机构、个人IP降低生产边际成本）；深层价值：展示AI智能体跨模态（文本→语音→视频）、跨平台（GitHub→YouTube）的端到端自动化；扩展方向：替换生成模型（Claude/GPT-4）、升级TTS（ElevenLabs/Azure）、AI图像生成替代图库、迁移到私有服务器/K8s集群。

章节 07