# 开源工具 bulk-pdp-generator：用 Claude 自动生成电商产品详情页

> 一个基于 Python 的两阶段 LLM 流水线工具，能够从 Shopify 商品数据批量生成 SEO 优化的产品描述 HTML，包含结构化数据标记，解决电商网站内容缺失问题。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-04-04T16:59:51.000Z
- 最近活动: 2026-04-04T17:19:05.988Z
- 热度: 163.7
- 关键词: 电商, Shopify, Claude, LLM, SEO, 产品描述, 内容生成, Python, 结构化数据, Schema Markup
- 页面链接: https://www.zingnex.cn/forum/thread/bulk-pdp-generator-claude
- Canonical: https://www.zingnex.cn/forum/thread/bulk-pdp-generator-claude
- Markdown 来源: ingested_event

---

# 开源工具 bulk-pdp-generator：用 Claude 自动生成电商产品详情页

## 背景：电商网站的内容困境

大多数电商网站都面临一个隐藏的内容问题：商品页面存在，价格已列出，图片已上传，但产品描述字段要么是空的，要么填充了占位符文本，要么是写给仓库数据库而非客户或搜索引擎的文案。当规模扩大到数百甚至数千个 SKU 时，这不再是文案写作问题，而是数据流水线问题。

搜索引擎会优先排名那些具有可抓取、相关文本内容的页面。然而，大多数电商产品页面上能够带来排名的内容——成分说明、功效声明、使用说明、FAQ 回答——要么存在于图片中（对搜索引擎不可见），要么根本不存在。

## 项目概述

**bulk-pdp-generator** 是一个开源的 Python 项目，它构建了一个两阶段流水线，能够读取结构化商品数据，利用公开信息研究每个产品，并批量生成 SEO 优化的产品描述 HTML——包括结构化数据标记（Schema Markup）。

该项目由 Andrew Clarke 开发，采用 MIT 许可证开源，主要面向使用 Shopify 的电商品牌，但也可适配其他平台。

## 核心问题与解决方案

### 电商产品页常见的四种失败模式

1. **空的 `body_html`**：描述字段从未被填充
2. **占位符文本**：履约应用或导入脚本留下了令牌字符串而非真实文案
3. **纯图片描述**：视觉上丰富的产品页，但所有实质性内容都锁定在图片中，爬虫无法抓取
4. **缺少结构化数据**：没有 `aggregateRating`、`HowTo`、`ItemList` 等标记，导致搜索结果中无法显示富媒体片段

### 两阶段流水线架构

**第一阶段：研究（Research）**

对于每个产品，流水线从标签分类和产品标题解析结构化属性，然后调用 Claude 模型执行研究提示，构建一个包含 13 行的属性表：

- 产品类型
- 适用肤质
- 关键成分及各自功效
- 认证信息
- 质地和肤感
- 香型特征
- 主要功效
- 使用场景
- 使用步骤
- 护肤流程中的位置
- 来自验证评价的信誉信号
- 客户常见问题
- 内部使用的购买意向信号

模型被明确指示不要产生幻觉——无法验证的声明会被标记为 `[UNVERIFIED]` 而非凭空编造。

**第二阶段：写作（Writing）**

属性表被输入到第二个提示中，生成 `body_html` 替换内容：

- 核心段落（Hero Paragraph）
- 功效要点（Bullet Points）
- 编号的使用步骤
- 信誉板块
- JSON-LD 结构化数据块（`aggregateRating`、`HowTo`、`ItemList`）

输出结果既可被爬虫抓取，又以功效为导向，同时针对人类读者和搜索引擎进行了结构化优化。

## 特殊功能：套装与组合商品处理

流水线特别处理套装和组合商品——解析以管道符分隔的标题（如 `Niacinamide Duo | Facewash | Gel cream | Travel-Size`）以识别组件产品，在商品目录中进行交叉引用，并将它们的数据传递到研究提示中，确保套装描述准确反映其中的实际内容。

评价数据（评分、数量）可从店面实时获取或通过 CSV 文件提供，并以正确的阈值分桶注入到 `aggregateRating` 结构化数据中，用于显示信誉信号。

## 实际应用案例：Plum Goodness

项目文档中引用了一个真实的印度 D2C 护肤品牌 **Plum Goodness** 作为参考案例。该品牌在配方研发上做了大量工作并拥有大量用户评价，但其产品页未能将这些价值展现给搜索引擎。

他们的产品页视觉精美：主图、成分亮点图形、生活方式摄影。但描述标签几乎全是图片。爬虫访问页面时找不到功效声明、成分说明或结构化的使用内容。尽管页面上有数千条 JudgeMe 评价，但缺少 `aggregateRating` 结构化数据。部分产品（主要是套装和旅行 duo）根本没有 `body_html`。

然而，他们的 Shopify 标签中隐藏着结构化数据：`SKINTYPE_All skin types`、`CONCERNS_Tan Removal`、`RANGE_Niacinamide` 等。优质内容的原材料已经存在，只是需要被提取、丰富和撰写。

## 技术实现细节

### 技术栈

| 组件 | 详情 |
|------|------|
| 语言 | Python 3.10+ |
| 大语言模型 | Claude Sonnet via Anthropic API |
| 输入 | Shopify `products.json` |
| 输出 | 结果 JSON、Shopify 就绪 JSON 或格式化的 Excel 工作簿 |
| Excel 导出 | `openpyxl` |
| HTTP 请求 | `urllib`（标准库，无额外依赖） |

### 主要功能特性

- **空产品过滤**：仅处理 `body_html` 为空或极短的产品
- **单产品模式**：可通过 Shopify 数字 ID 处理单个产品
- **评价数据集成**：支持从店面实时获取或 CSV 文件导入评价数据
- **Shopify 就绪输出**：生成可直接导入 Shopify 的 `updated_products.json`
- **Excel 导出**：支持将结果导出为格式化的 Excel 工作簿供人工审核
- **模拟运行模式**：支持 `--dry-run` 预览提示内容而不产生 API 费用

### 成本估算

使用 Claude Sonnet 模型，每处理 1,000 个 SKU 的预估成本约为 **$36–37**。项目文档提供了详细的成本分解和规模估算表。

## 局限性与适配建议

项目文档明确指出，该流水线基于特定假设构建，反映了 Plum Goodness 的 Shopify 设置。不同网站需要在以下方面进行适配：

- **标签分类法**：标签解析器使用 Plum 的命名约定，大多数商店的标签方式不同或根本没有标签
- **属性表**：13 行表格针对护肤品设计，其他类别需要不同的行
- **结构化数据类型**：`aggregateRating`、`HowTo` 和 `ItemList` 是该类别的合适选择，其他类别可能需要 `Book`、`SoftwareApplication`、`FAQPage` 等
- **评价数据来源**：获取器为 Shopify 上的 JudgeMe 构建，Yotpo、Stamped 和自定义平台需要不同的处理方式
- **输出格式**：Shopify `products.json` 输出格式适用于 Shopify 商店，WooCommerce 和 Magento 导入需要列重映射

项目提供了详细的适配指南文档（`docs/ADAPTING.md`），涵盖每个领域的完整检查清单和指导。

## 快速开始

### 安装依赖

```bash
git clone https://github.com/bobbymathew-lab/bulk-pdp-generator.git
cd bulk-pdp-generator
pip install -r requirements.txt
```

### 设置 API 密钥

```bash
export ANTHROPIC_API_KEY="sk-ant-api03-your-key-here"
```

### 模拟运行（无成本）

```bash
python plum_pdp_generator.py --input examples/sample_products.json --filter-empty --dry-run
```

### 生成描述

```bash
# 仅处理空描述的产品
python plum_pdp_generator.py --input products.json --output results.json --filter-empty

# 使用实时评价数据
python plum_pdp_generator.py --input products.json --output results.json --filter-empty --fetch-reviews

# 生成 Shopify 就绪输出
python plum_pdp_generator.py --input products.json --output updated_products.json --output-format shopify --filter-empty
```

### 导出到 Excel

```bash
python results_to_excel.py --input results.json --output review.xlsx
```

## 项目价值与启示

bulk-pdp-generator 展示了 LLM 在电商内容生成领域的实际应用价值。它不仅仅是一个简单的文本生成工具，而是一个完整的数据流水线，将结构化商品数据转化为 SEO 友好的产品描述。

该项目的核心价值在于：

1. **规模化处理**：能够一次性处理数千个 SKU，将原本需要数周的人工工作压缩到数小时
2. **质量保证**：通过两阶段架构（研究+写作）和明确的防幻觉指令，确保生成内容的准确性
3. **SEO 优化**：内置结构化数据标记支持，帮助提升搜索排名和富媒体片段展示
4. **可适配性**：虽然是针对特定场景构建，但提供了清晰的适配指南，可扩展到其他品类和平台

对于拥有大量 SKU 的电商品牌来说，这种自动化内容生成方案可以显著降低运营成本，同时提升产品页的搜索可见性和转化率。

## 相关链接

- GitHub 仓库：https://github.com/bobbymathew-lab/bulk-pdp-generator
- 参考品牌：https://plumgoodness.com
- Anthropic API：https://console.anthropic.com