# AWS开源AI搜索引用分析系统：追踪品牌在AI搜索引擎中的曝光度

> AWS官方发布的开源项目，基于Amazon Bedrock、Step Functions和React构建完整的无服务器引用分析系统，帮助企业监测品牌在ChatGPT、Perplexity、Gemini、Claude等AI搜索中的引用情况与竞争态势

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-03-31T12:41:24.000Z
- 最近活动: 2026-03-31T12:49:52.841Z
- 热度: 173.9
- 关键词: AWS, Amazon Bedrock, AI搜索, 品牌监测, Citation Analysis, Step Functions, 无服务器架构, ChatGPT, Perplexity, Gemini, Claude, SEO, AIO, 内容营销, 竞争情报
- 页面链接: https://www.zingnex.cn/forum/thread/awsai-ai
- Canonical: https://www.zingnex.cn/forum/thread/awsai-ai
- Markdown 来源: ingested_event

---

# AWS开源AI搜索引用分析系统：追踪品牌在AI搜索引擎中的曝光度

## 背景：AI搜索时代的品牌监测新挑战

随着ChatGPT、Perplexity、Google Gemini、Claude等AI助手逐渐成为用户获取信息的主要入口，传统SEO的逻辑正在发生根本性变化。过去，品牌关注的是在Google搜索结果中的排名；如今，更重要的是在AI模型的回答中被引用和推荐。

AWS近期开源的**Citation Analysis System**项目，正是针对这一新兴需求推出的完整解决方案。该系统能够自动查询多个AI搜索提供商，捕获它们的回答和引用来源，并通过可视化仪表板呈现品牌在AI搜索生态中的曝光度与竞争格局。

## 项目概述

这是一个基于AWS无服务器架构构建的引用分析系统，核心功能包括：

- **多提供商查询**：同时向OpenAI、Perplexity、Gemini、Claude发送关键词查询
- **引用捕获与去重**：自动提取AI回答中的引用链接，跨提供商进行URL归一化和去重
- **网页爬取**：使用Amazon Bedrock AgentCore浏览器工具爬取被引用的页面内容
- **数据存储与分析**：将搜索结果、引用数据和爬取内容存储在DynamoDB中供后续分析
- **可视化仪表板**：基于React的实时仪表板，展示品牌曝光度、竞争对比等关键指标

项目采用MIT-0许可证开源，意味着你可以自由使用、修改，甚至不需要保留版权声明。

## 系统架构解析

整个系统采用AWS Step Functions进行工作流编排，使用AWS CDK（TypeScript）进行基础设施即代码部署。架构设计体现了典型的现代无服务器应用模式：

### 核心组件

**1. Search Lambda函数**
负责向各个AI提供商发送查询请求。系统支持四种主流AI搜索服务：

| 提供商 | 模型 | 特点 |
|--------|------|------|
| OpenAI | GPT-5 mini | 原生支持网页搜索，通过Responses API实现 |
| Perplexity | Sonar | 专为实时搜索设计的模型 |
| Google Gemini | Flash 2.0 | 基于Google Search的grounding能力 |
| Anthropic Claude | Sonnet 4.5 | 内置网页搜索工具 |

**2. Deduplication Lambda函数**
对跨提供商的引用URL进行归一化处理。例如，`https://example.com/page`和`https://example.com/page/`被视为同一页面，避免重复统计。

**3. Crawler Lambda函数**
使用Amazon Bedrock AgentCore的浏览器工具爬取被引用的网页内容。这是该系统的一个技术亮点——AgentCore提供了基于浏览器的自动化能力，可以处理JavaScript渲染的动态页面。

**4. Step Functions工作流**
编排整个分析流程：并行查询多个提供商→收集引用→去重处理→爬取页面→生成摘要。支持3个关键词并发处理和每个关键词3个并发爬取。

**5. DynamoDB数据层**
存储搜索结果、引用元数据、爬取内容和执行历史。采用按需计费模式，适合分析工作负载的间歇性特征。

**6. Secrets Manager**
安全存储各AI提供商的API密钥，避免硬编码敏感信息。

**7. React前端仪表板**
基于Vite和Tailwind CSS构建的现代化SPA，通过API Gateway与后端交互，托管在S3并通过CloudFront分发。

## 部署与使用

### 快速部署

项目提供了自动化部署脚本，简化了设置流程：

```bash
./scripts/deploy.sh
```

该脚本会自动检查先决条件（Node.js 20+、Python 3.12、AWS CLI、CDK）、安装依赖、构建Lambda层、编译TypeScript、引导CDK环境，并最终部署整个栈。

### 手动部署（两阶段）

对于需要更多控制的场景，可以手动部署：

```bash
# 第一阶段：部署基础设施
cdk deploy

# 构建前端（需要第一阶段的输出值）
./scripts/build-web.sh

# 第二阶段：上传配置好的前端
cdk deploy
```

注意：前端构建需要API Gateway URL和Cognito配置，这些只有在第一阶段部署完成后才能获取，因此必须分两次部署。

### 配置分析任务

部署完成后，通过CloudFront URL访问仪表板，按以下步骤配置：

**第一步：配置AI提供商**
在Settings > Providers页面添加至少一个AI提供商的API密钥。系统会跳过无效或占位符密钥的提供商。注意：需要使用付费API密钥，免费套餐的速率限制无法满足分析工作负载。

**第二步：配置品牌追踪**
在Settings > Brand Tracking页面设置你的品牌和竞争对手。系统支持行业预设（酒店、航空、零售等）或自定义配置。这是计算"品牌曝光度"分数的基础。

**第三步：添加关键词**
在Settings > Keywords页面添加要分析的关键词，例如"best hotels in Barcelona"。

**第四步：配置查询提示（可选）**
在Settings > Query Prompts页面定义基于角色的搜索模板，例如"As a parent travelling with 3 young kids, {keyword}"，用于模拟不同用户画像的搜索场景。

**第五步：运行分析**
在Operations > Run Analysis页面选择关键词并启动分析。典型运行时间为3-5分钟，取决于关键词数量。

## 仪表板功能详解

### 实时统计概览

仪表板首页展示关键指标：
- 总搜索次数、引用数量、已爬取页面数
- 各AI提供商的引用分布对比
- 自动每30秒刷新

### 品牌曝光度分析

这是系统的核心价值所在：
- **Share of Voice（声量份额）**：你的品牌在所有提及中被引用的比例
- **竞争对比**：与配置的竞争品牌进行并排比较
- **30天趋势**：追踪曝光度随时间的变化

### 品牌提及详情

列出每次品牌提及的上下文：
- 情感分析（正面/负面/中性）
- 排名位置（在AI回答中的出现顺序）
- 提及来源的URL和提供商

### 引用缺口分析

识别"引用竞争对手但未引用你"的来源。这是内容营销和PR团队的重点目标列表——这些网站已经在AI搜索中被视为权威来源，争取被它们引用将有效提升你的AI搜索可见度。

### 内容工作室

基于引用缺口分析，使用Amazon Bedrock Claude Haiku 4.5生成内容简报和大纲，帮助创建更容易被AI模型引用的内容。支持多语言输出。

## 技术亮点与最佳实践

### 错误处理与重试机制

系统实现了健壮的容错设计：
- 所有API客户端采用指数退避重试（最多5次，最大等待约35秒）
- 处理速率限制（429）、服务器错误（5xx）、超时和连接错误
- Step Functions在Lambda级别失败时自动重试

### 安全设计

- API密钥加密存储在Secrets Manager
- DynamoDB静态加密
- IAM最小权限原则
- CloudWatch审计日志
- 默认禁用自助注册，仅管理员可通过CLI创建用户

### 企业身份集成

支持通过Azure AD（Entra ID）进行联邦身份认证，允许用户使用企业凭证登录，而非管理单独的Cognito密码。配置步骤包括：
1. 在Azure AD中注册应用
2. 在Cognito中添加OIDC身份提供商
3. 配置OAuth回调URL
4. 更新前端配置

### 开发工作流

项目提供了一系列npm脚本简化开发：

```bash
npm run build          # 构建TypeScript
npm run watch          # 监视模式
npm run synth          # 合成CloudFormation
npm run deploy         # 完整部署（推荐）
npm run deploy:full    # 部署+清除CloudFront缓存
npm run clear-cache    # 仅清除CloudFront缓存
```

## 适用场景与价值

### 谁应该使用这个系统？

**1. 品牌营销团队**
监测品牌在AI搜索中的曝光度，了解竞争对手的相对位置，识别内容营销机会。

**2. SEO/内容策略师**
从传统搜索引擎优化扩展到AI搜索优化（AIO - AI Optimization），了解哪些内容更容易被AI模型引用。

**3. 市场研究分析师**
追踪行业趋势和消费者搜索行为的变化，分析不同AI提供商的推荐偏好。

**4. 技术架构师**
学习AWS无服务器架构、Step Functions工作流编排、Bedrock AgentCore应用等现代云原生开发模式。

### 实际价值

- **量化AI搜索可见度**：从"感觉我们在ChatGPT中被提到"到"本月我们在Gemini中的声量份额为23%，环比提升5%"
- **识别内容机会**：发现引用竞争对手但未引用你的权威来源，制定针对性的外联策略
- **竞争情报**：了解竞争对手在AI搜索生态中的表现
- **趋势追踪**：监测AI搜索推荐随时间的变化，及时调整内容策略

## 局限性与注意事项

### 成本考量

虽然系统本身运行在AWS免费套餐可覆盖的范围内（Lambda、DynamoDB按需、Step Functions），但调用外部AI提供商API会产生费用：

- OpenAI、Perplexity、Gemini、Claude的API调用按token计费
- 项目作者建议每个提供商准备$5-10的预算用于常规使用
- 大规模分析或高频监控需要相应增加预算

### 样本代码性质

项目明确标注为样本代码（sample code），用于演示和教育目的。在生产环境部署前，需要进行额外的安全审查和测试，包括：
- 安全合规审查
- 性能基准测试
- 灾难恢复规划
- 监控和告警配置

### 数据隐私

系统会存储查询关键词、AI回答内容、引用URL和爬取的网页内容。在处理敏感行业或受监管数据时，需要评估数据驻留和隐私合规要求。

## 总结与展望

AWS的Citation Analysis System项目为品牌监测在AI搜索时代提供了一个实用的起点。它不仅是一个可以直接部署使用的工具，更是理解AI搜索生态、学习现代AWS架构设计的优秀参考实现。

随着AI搜索继续侵蚀传统搜索引擎的市场份额，"AI搜索优化"（AIO）很可能成为SEO的继任者。这个系统让团队能够从今天开始建立监测能力，积累历史数据，为未来的策略调整提供数据支撑。

对于技术团队而言，项目展示了多个AWS服务的协同使用模式：Step Functions编排复杂工作流、Bedrock AgentCore实现浏览器自动化、CDK实现基础设施即代码。这些模式可以迁移到其他应用场景。

项目已在GitHub开源，地址：https://github.com/aws-samples/sample-llm-search-citation-analysis-with-amazon-bedrock