# WhatsApp群聊播客生成器：将聊天记录转化为专业播客的开源工具

> 该项目是一套命令行工具与Python库，能够将WhatsApp群聊的聊天记录自动转换为双人对话式播客，集成消息分片、脚本生成、语音合成与音频拼接等完整流程。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-05-17T14:14:55.000Z
- 最近活动: 2026-05-17T14:25:10.200Z
- 热度: 150.8
- 关键词: 播客生成, WhatsApp, 聊天记录, 语音合成, 大语言模型, 内容转换, 开源工具, AI应用
- 页面链接: https://www.zingnex.cn/forum/thread/whatsapp
- Canonical: https://www.zingnex.cn/forum/thread/whatsapp
- Markdown 来源: ingested_event

---

# WhatsApp群聊播客生成器：将聊天记录转化为专业播客的开源工具

## 项目背景与创意来源

在生成式 AI 快速发展的当下，技术社群的讨论往往蕴含着丰富的知识价值。然而，群聊记录通常以碎片化形式存在，难以被更广泛的受众消费。Sanand0 开发的 generative-ai-group 项目巧妙地解决了这一问题：它是一套命令行工具与 Python 库，能够将 WhatsApp 群聊的聊天记录自动转换为专业品质的双人播客。这一创意不仅降低了知识分享的门槛，也为社区内容的二次传播提供了全新思路。

## 系统架构与处理流程

该项目的核心工作流程可分为四个阶段，每个阶段都体现了工程设计的精巧之处。

### 消息分片与数据整理

第一阶段使用 split_whatsapp_messages.py 脚本处理 WhatsApp 聊天记录导出文件。该脚本能够合并多个导出的 JSON 文件，修复常见的格式问题，并按周对消息进行分片存储。具体而言，周一到周六的消息归入即将到来的周日文件中，而周日的消息则进入下一个周日文件。这种以周日为锚点的分片策略，与播客节目的周更节奏天然契合。脚本还会处理时间戳缺失的情况，将这类消息统一存入 unknown-time.json。

### 线程化转录整理

第二阶段将每周的消息转换为结构化的对话转录文本。系统会识别消息之间的回复关系，将相关的讨论组织成线程，形成清晰的对话脉络。这种线程化处理保留了原始讨论的逻辑结构，为后续的脚本生成提供了优质的输入素材。

### AI 驱动的脚本生成

第三阶段是整个流程的核心环节。项目调用 OpenAI 的 gpt-5.4-mini 模型，将整理好的聊天记录转换为 polished two-host dialogue script。系统会生成两个主持人之间的对话脚本，将技术讨论转化为更具叙事性和听觉友好度的播客内容。这一环节充分体现了大语言模型在内容重构与风格迁移方面的强大能力。

### 语音合成与音频拼接

第四阶段使用 Gemini 的 gemini-3.1-flash-tts-preview 接口进行语音合成。系统为两位主持人配置不同的声线特征，逐行合成音频片段，最后使用 ffmpeg 工具将所有片段拼接为完整的播客文件。config.toml 配置文件允许用户自定义播客提示词、整体 TTS 风格以及每位发言人的声线特征，提供了充分的个性化空间。

## 技术实现亮点

### 纯函数与类型提示

项目代码采用纯函数编程风格，配合 Python 的类型提示系统，使代码具有良好的可读性与可维护性。podcast.py 作为单文件应用，集中了所有核心逻辑，便于开发者理解与修改。

### 环境变量管理

系统通过环境变量接收 API 密钥配置，包括 OPENAI_API_KEY、GEMINI_API_KEY 以及可选的 JINA_API_KEY。这种设计既保护了敏感信息，又便于在不同部署环境中灵活配置。

### uv 工具链集成

项目推荐使用 uv 作为 Python 包管理工具，这是 Astral 公司推出的新一代 Python 环境管理方案，具有更快的依赖解析速度与更简洁的用户体验。所有脚本都通过 uv run 命令执行，确保了环境的一致性。

### RSS 订阅支持

项目生成的播客文件配有 podcast.xml RSS 订阅源，方便听众通过播客客户端订阅与收听。这一设计体现了项目对用户体验的完整考量，不仅是技术演示，更是可实际运营的内容生产工具。

## 使用场景与价值

该工具的应用场景十分广泛。对于技术社群运营者，系统能够将群内的高质量讨论自动转化为播客内容，延长内容的生命周期；对于知识分享者，播客形式突破了文字阅读的局限，触达更习惯音频消费的受众；对于社区成员，即使错过了群内的实时讨论，也能通过播客回顾重要话题。

从更宏观的角度看，该项目展示了 AI 技术在内容形态转换方面的潜力。聊天记录到播客的转换，本质上是将非结构化、碎片化的对话内容，重构为结构化、叙事化的音频内容。这一过程涉及信息抽取、内容重组、风格转换等多个 NLP 核心任务，而大语言模型的出现使这种复杂转换变得可行。

## 文件结构与组织

项目仓库的组织结构清晰直观。split_whatsapp_messages.py 负责消息分片，podcast.py 是主应用文件，config.toml 存储配置信息。messages 目录存放按周分片的消息文件，YYYY-MM-DD 格式的子目录则存储每周生成的转录文本、脚本与音频文件。samples 目录提供了示例脚本与音频，方便新用户快速体验系统能力。

## 扩展性与定制化

config.toml 配置文件是项目扩展性的关键。用户可修改播客生成提示词，调整 TTS 的整体风格，甚至为每位发言人配置独特的声线特征。这种设计使同一套工具能够适应不同主题的社群，无论是技术讨论、读书分享还是行业分析，都能生成风格契合的播客内容。

## 命令行接口设计

项目提供了丰富的命令行接口。基础用法是 uv run podcast.py，自动处理所有周次的聊天记录。对于希望直接测试语音合成的用户，可使用 tts-script 子命令指定脚本文件进行合成。--describe 选项可查看完整的接口描述，--format json 则输出结构化数据，便于自动化工具集成。

## 技术选型考量

项目在技术选型上体现了实用主义原则。OpenAI 的 gpt-5.4-mini 在成本与质量之间取得了良好平衡，适合批量内容生成；Gemini 的 TTS 接口提供了高质量的语音合成能力；ffmpeg 作为音频处理的标准工具，确保了最终音频的专业品质。这种多厂商技术的组合使用，既发挥了各平台的优势，又避免了对单一供应商的过度依赖。

## 总结与启示

generative-ai-group 项目是一个精巧的 AI 应用案例，展示了如何将大语言模型的能力与传统软件工程相结合，解决实际的内容生产问题。它不仅是一个技术工具，更是一种内容运营思路的具象化：利用 AI 放大人类讨论的价值，让知识以更丰富的形态流动。对于希望探索 AI 内容生成应用的开发者而言，该项目提供了完整的参考实现，从数据预处理到最终音频输出，每个环节都值得深入学习。
