正文

WhatsApp群聊播客生成器：将聊天记录转化为专业播客的开源工具

该项目是一套命令行工具与Python库，能够将WhatsApp群聊的聊天记录自动转换为双人对话式播客，集成消息分片、脚本生成、语音合成与音频拼接等完整流程。

播客生成WhatsApp聊天记录语音合成大语言模型内容转换开源工具AI应用

发布时间 2026/05/17 22:14最近活动 2026/05/17 22:25预计阅读 3 分钟

章节 01

WhatsApp群聊播客生成器：核心功能与价值导读

Sanand0开发的generative-ai-group项目是一套开源的命令行工具与Python库，核心功能是将WhatsApp群聊记录自动转换为专业品质的双人播客，涵盖消息分片、脚本生成、语音合成与音频拼接的完整流程。该工具解决了技术社群群聊碎片化知识难以广泛传播的问题，兼具技术亮点与实际应用价值。

章节 02

项目背景与创意来源

在生成式AI快速发展的当下，技术社群的讨论蕴含丰富知识价值，但群聊记录以碎片化形式存在，难以被更广泛受众消费。Sanand0的generative-ai-group项目巧妙解决这一问题，将WhatsApp群聊记录转为专业播客，降低知识分享门槛，为社区内容二次传播提供全新思路。

章节 03

系统架构与核心处理流程

系统核心流程分为四个阶段：

消息分片与整理：通过split_whatsapp_messages.py合并JSON文件、修复格式问题，按周日为锚点分片存储（周一至周六归入当周周日文件，周日进入下一周），缺失时间戳的消息存入unknown-time.json；
线程化转录：识别消息回复关系，组织成结构化对话脉络；
AI脚本生成：调用OpenAI gpt-5.4-mini模型，将整理后的记录转为双人对话脚本；
语音合成与拼接：使用Gemini的gemini-3.1-flash-tts-preview接口生成不同声线的音频片段，通过ffmpeg拼接为完整播客，config.toml支持自定义提示词、TTS风格及声线特征。

章节 04

技术实现亮点

项目技术亮点包括：

纯函数与类型提示：代码采用纯函数风格配合Python类型提示，可读性与可维护性强；
环境变量管理：通过环境变量接收API密钥（OPENAI_API_KEY、GEMINI_API_KEY等），保护敏感信息且配置灵活；
uv工具链集成：推荐使用uv作为包管理工具，依赖解析快、体验简洁，确保环境一致性；
RSS订阅支持：生成podcast.xml RSS源，方便听众通过客户端订阅收听。

章节 05

使用场景与价值

工具应用场景广泛：

技术社群运营者：将群内高质量讨论转为播客，延长内容生命周期；
知识分享者：突破文字局限，触达音频消费受众；
社区成员：回顾错过的实时讨论。宏观上，该项目展示了AI在内容形态转换的潜力，将非结构化碎片化对话重构为结构化叙事化音频，涉及信息抽取、内容重组等NLP任务。

章节 06

扩展性、定制化与CLI设计

扩展性与定制化：通过config.toml可修改播客提示词、调整TTS整体风格、配置每位发言人的独特声线，适应不同主题社群需求； CLI设计：基础用法为uv run podcast.py自动处理所有周次记录；tts-script子命令可指定脚本文件测试合成；--describe选项查看接口描述；--format json输出结构化数据便于集成。

章节 07

总结与启示

generative-ai-group项目是精巧的AI应用案例，结合大语言模型能力与传统软件工程解决实际内容生产问题。它不仅是技术工具，更是内容运营思路的具象化——利用AI放大人类讨论价值，让知识以更丰富形态流动。对AI内容生成开发者而言，该项目提供了从数据预处理到音频输出的完整参考实现，各环节值得深入学习。