# PPT-Agent：多智能体协作的自动化演示文稿生成系统

> 一个基于多智能体LLM工作流的跨平台PPT生成工具，支持Gemini审查、SVG输出和17种预设风格，可在Claude Code、OpenCode等多个宿主平台运行。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-03T15:45:24.000Z
- 最近活动: 2026-05-03T15:47:46.452Z
- 热度: 155.0
- 关键词: multi-agent, LLM workflow, presentation generation, SVG, Bento Grid, Gemini, Claude Code, OpenCode, MCP, automation
- 页面链接: https://www.zingnex.cn/forum/thread/ppt-agent
- Canonical: https://www.zingnex.cn/forum/thread/ppt-agent
- Markdown 来源: ingested_event

---

# PPT-Agent：多智能体协作的自动化演示文稿生成系统

## 项目背景与定位

在AI辅助内容创作日益普及的今天，演示文稿制作仍然是一个耗时且需要多方协作的环节。传统的PPT工具依赖用户手动设计每一页的布局、配色和内容组织，而简单的AI生成工具往往只能输出粗糙的文本大纲，缺乏专业的设计感和结构化的视觉呈现。

**PPT-Agent** 项目应运而生，它是一个基于多智能体（Multi-Agent）架构的自动化演示文稿生成系统。该项目将LLM的能力与专业设计工作流相结合，通过分工明确的智能体协作，实现从需求调研到最终交付的全流程自动化。项目采用跨平台设计，支持Claude Code、OpenCode、Cursor、Zed等多种AI编程宿主环境。

## 核心架构：七阶段工作流

PPT-Agent的设计理念源于专业设计团队的工作模式，将整个PPT制作过程拆解为七个明确的阶段，每个阶段由专门的智能体负责：

### 第一阶段：初始化与参数解析

系统接收用户输入的主题或需求描述，解析风格预设、品牌色彩、目标页数等参数。目前内置17种风格预设，包括商务（business）、科技（tech）、创意（creative）、极简（minimal）、蓝图（blueprint）、编辑风格（bold-editorial）、黑板风（chalkboard）、信息图（editorial-infographic）、幻想动画（fantasy-animation）、直觉机器（intuition-machine）、Notion风格、像素艺术（pixel-art）、科学风格（scientific）、手绘笔记（sketch-notes）、矢量插画（vector-illustration）、复古（vintage）和水彩（watercolor）。

### 第二阶段：需求调研

由research-core智能体执行背景搜索，收集与主题相关的行业信息、市场数据和竞品分析。此阶段支持用户介入确认（Hard Stop），确保方向正确后再进入下一阶段。

### 第三阶段：素材收集

按照大纲章节进行并行深度搜索，汇总图片、数据、引用等素材，形成结构化的素材库。

### 第四阶段：大纲规划

content-core智能体运用金字塔原理构建结构化大纲，确保信息层次清晰、逻辑递进合理。用户可在此阶段审批大纲，进行必要的调整。

### 第五阶段：规划草稿

为每一页生成简版SVG草稿，确定基本布局框架，为后续精细设计奠定基础。

### 第六阶段：设计稿生成与审查

这是系统的核心创新点。slide-core智能体负责生成基于Bento Grid布局的SVG设计稿，而review-core智能体则调用Gemini进行质量审查。审查维度包括布局评分、可读性、配色协调性、字体大小合规性、对比度等多个指标。如果审查不通过，系统会自动触发修复循环，最多支持2轮迭代优化。

### 第七阶段：交付

输出最终的SVG文件、交互式HTML预览页面以及演讲者备注文档。

## 技术亮点与创新

### 1. Bento Grid布局引擎

项目采用1280×720分辨率的SVG输出格式，运用Bento Grid（便当盒）布局理念，将每页内容组织为视觉平衡的信息块。这种布局方式源自现代UI设计，能够在有限空间内呈现丰富的信息层次，同时保持整体的美观和一致性。

### 2. Gemini驱动的质量审查

与其他简单的AI生成工具不同，PPT-Agent引入了独立的质量审查智能体。该智能体使用Gemini模型对生成的SVG进行多维度评估：

- **加权总分**：最低要求7.0分，优秀标准8.5分以上
- **布局评分**：评估信息组织的合理性和视觉平衡
- **可读性**：检查字体大小、行间距、对比度等阅读体验指标
- **修复轮次**：理想情况下0轮修复直接通过，最多允许2轮

当Gemini不可用时，系统会降级为技术校验模式，继续检查XML结构、viewBox设置、安全边距等硬性规范，确保输出质量的下限。

### 3. 品牌定制化支持

系统支持通过YAML配置文件注入品牌色彩体系：

```yaml
brand:
  primary: "#FF6900"      # 主品牌色
  secondary: "#000000"   # 辅助品牌色
  logo_text: "Mi"         # 品牌标识（2-3字符）
```

这一特性使得企业用户能够快速生成符合品牌规范的演示文稿，无需反复调整配色方案。

### 4. 跨平台兼容与MCP Server化

项目正在向MCP（Model Context Protocol）Server架构演进，将核心工作流封装为标准化的tools（如ppt/generate、ppt/outline、ppt/review）。这意味着任何支持MCP的宿主环境都可以直接接入，实现"一次开发，全平台通用"的目标。目前已验证支持的平台包括：

| 平台 | 模型 | 状态 |
|------|------|------|
| OpenCode | GPT-5.4 | ✅ 已验证 |
| OpenCode | MiniMax M2.5 | ✅ 已验证 |
| OpenCode | MiMo V2 Pro | ✅ 已验证 |
| Claude Code | Claude Opus | ✅ 已验证 |

### 5. 断点续传与中断恢复

系统设计了完善的运行目录结构，每个阶段的状态都被持久化到slide-status.json等文件中。如果运行过程中断，用户可以通过指定run-id参数从断点继续执行，无需重新开始整个流程。

## 实际效果展示

项目文档中展示了使用相同提示词、相同工作流，但在不同模型和宿主环境下的输出对比。以"帮我收集新一代小米SU7的发布会资料然后做一套PPT"为例：

- **GPT-5.4（OpenCode）**：深色科技蓝橙配色，12页，平均质量分8.53/10
- **MiniMax M2.5（OpenCode）**：深蓝商务橙配色，14页，平均质量分8.5/10
- **MiMo V2 Pro（OpenCode）**：小米品牌橙#FF6900，深色科技风格，平均质量分8.34/10
- **Claude Opus（Claude Code）**：经典商务风格

这些对比结果表明，PPT-Agent的工作流架构具有良好的模型无关性，能够在不同底层模型上保持相对稳定的输出质量。

## 应用场景与价值

PPT-Agent适用于多种场景：

1. **企业营销团队**：快速生成符合品牌规范的产品发布会PPT
2. **咨询顾问**：基于调研数据自动生成结构化的分析报告
3. **教育工作者**：将课程大纲转换为视觉化的教学课件
4. **创业者**：为路演准备专业的商业计划书演示
5. **研究人员**：将学术论文转化为会议演讲的视觉材料

## 局限性与未来方向

当前版本的主要局限在于：

- 输出格式仅限于SVG和HTML预览，暂不支持直接导出为PPTX等主流格式
- 审查环节依赖Gemini的可用性，技术降级模式缺乏审美层面的优化建议
- 复杂动画和过渡效果的生成能力有限

项目路线图显示，未来计划包括：完善MCP Server封装、增强Headless模式支持CI/CD集成、扩展更多输出格式、以及引入更丰富的动画生成能力。

## 总结

PPT-Agent代表了AI辅助内容创作的一个新方向——不是简单地将生成任务交给单一模型，而是通过多智能体协作模拟专业团队的工作流程。这种架构设计既保证了输出的专业性，又提供了灵活的可定制性。对于需要频繁制作演示文稿的用户而言，这是一个值得关注的开源项目。
