# AgentSpec：规范驱动的数据工程多智能体框架

> AgentSpec是一个为Antigravity IDE设计的规范驱动数据工程框架，通过63个专业代理和25个知识库领域，实现从头脑风暴到交付的完整数据管道开发工作流。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-24T20:45:15.000Z
- 最近活动: 2026-04-24T20:52:15.232Z
- 热度: 161.9
- 关键词: AgentSpec, 数据工程, Antigravity IDE, 多智能体, dbt, Spark, Airflow, 知识库, 规范驱动
- 页面链接: https://www.zingnex.cn/forum/thread/agentspec
- Canonical: https://www.zingnex.cn/forum/thread/agentspec
- Markdown 来源: ingested_event

---

# AgentSpec：规范驱动的数据工程多智能体框架

在数据工程领域，让AI从零开始构建数据管道往往充满挑战——缺乏分区策略记忆、不了解SCD模式、对数据合约没有认知，最终导致生成的SQL充满幻觉、增量策略错误百出、开发环境通过的管道在生产环境崩溃。AgentSpec项目正是为解决这些问题而生，它通过规范驱动数据工程（Spec-Driven Data Engineering）方法，将63个专业代理和25个知识库领域整合到一个结构化工作流中，为Antigravity IDE用户提供可靠的数据管道开发体验。

## 数据工程AI化的痛点

传统AI辅助数据工程面临几个核心问题：

**冷启动问题**：每次会话AI都从零开始，没有项目历史记忆，重复犯同样的错误。

**幻觉生成**：AI可能生成看似合理但实际错误的SQL，比如错误的增量策略、不合理的分区键选择。

**上下文碎片化**：复杂数据管道涉及多个组件（dbt模型、Spark作业、Airflow DAG），AI难以保持全局一致性。

**质量不可控**：缺乏系统化的验证机制，问题往往在部署后才暴露。

AgentSpec通过"规范优先"（Spec-First）方法解决这些问题——在编写代码前先定义清晰的规范文档，所有代理都基于这些规范工作，确保一致性和可追溯性。

## 核心架构：五阶段工作流

AgentSpec定义了从概念到交付的五个阶段：

### 0. 头脑风暴（Brainstorm）

命令：`/brainstorm`

在这个阶段，AI代理帮助用户探索想法、比较不同方案、提出发现性问题。输出是BRAINSTORM_{FEATURE}.md文档，包含至少3个关键问题和2种以上可行方案。YAGNI过滤器确保不会过度设计。

### 1. 定义（Define）

命令：`/define`

将头脑风暴转化为结构化需求文档DEFINE_{FEATURE}.md。每个需求都经过清晰度评分（Clarity Score），必须达到12/15分以上才能进入下一阶段。这确保了需求足够明确，代理能够准确理解。

### 2. 设计（Design）

命令：`/design`

生成完整的设计文档DESIGN_{FEATURE}.md，包括文件清单、管道架构图（Mermaid格式）、架构决策记录（ADR）和验收标准。设计阶段输出是后续所有实现的蓝图。

### 3. 构建（Build）

命令：`/build`

这是执行阶段，系统根据设计文档自动委派给专业代理。如果设计指定了dbt模型、PySpark作业和Airflow DAG，系统会自动分配给dbt-specialist、spark-engineer和pipeline-architect三个代理并行工作。输出包括代码和BUILD_REPORT.md测试报告。

### 4. 交付（Ship）

命令：`/ship`

项目完成后的归档阶段，生成SHIPPED_{DATE}.md文档记录经验教训和知识库更新。这确保了项目知识被沉淀下来，供未来项目复用。

## 63个专业代理：分工协作的力量

AgentSpec的核心竞争力在于其庞大的专业代理团队，分布在9个类别中：

### 架构师（8个代理）

- schema-designer：星型模式设计
- pipeline-architect：管道架构设计
- medallion-architect： medallion层架构
- lakehouse-architect：Lakehouse技术选型（Iceberg vs Delta Lake）
- genai-systems-architect：生成式AI系统设计

这些代理负责高层设计和架构决策，确保系统设计的合理性和可扩展性。

### 数据工程师（15个代理）

- dbt-specialist：dbt模型开发
- spark-engineer：Spark作业开发
- airflow-specialist：Airflow DAG设计
- streaming-engineer：流处理管道
- lakeflow-engineer：Lakeflow作业
- sql-optimizer：SQL性能优化

这是最大的代理类别，覆盖了现代数据栈的各个技术领域。每个代理都是特定工具或平台的专家。

### 云平台（10个代理）

- aws-lambda-specialist：AWS Lambda函数
- gcp-cloud-run-engineer：GCP Cloud Run服务
- supabase-architect：Supabase数据库
- terraform-specialist：基础设施即代码
- cicd-engineer：CI/CD管道

这些代理专注于云原生数据工程，支持主流云平台的部署和运维。

### Microsoft Fabric（6个代理）

作为Microsoft数据平台的完整解决方案，包括架构、管道、安全、AI、日志和CI/CD六个专业代理。

### 其他类别

- Python（6个）：代码审查、文档、清理、提示工程
- 工作流（6个）：头脑风暴、定义、设计、构建、交付、迭代
- 开发（4个）：代码库探索、Shell脚本、会议分析
- 测试（3个）：测试生成、数据质量分析、数据合约编写

## 25个知识库领域：KB优先解析

每个代理遵循"知识库优先"（KB-First）原则——在查询外部资源之前，首先检查本地知识库。知识库分为7大类：

### 核心数据工程

- dbt：dbt最佳实践、模型组织、测试策略
- spark：Spark优化、分区策略、缓存机制
- sql-patterns：SQL模式、窗口函数、CTE用法
- airflow：DAG设计、任务依赖、传感器模式
- streaming：流处理概念、水位线、状态管理

### 数据设计

- data-modeling：维度建模、星型/雪花模式
- data-quality：数据质量维度、验证规则
- medallion：Bronze-Silver-Gold分层策略

### 基础设施

- lakehouse：Lakehouse架构、开放表格式
- lakeflow：Lakeflow作业设计
- cloud-platforms：云平台对比和选型
- terraform：Terraform模块和模式

### AI与现代技术

- ai-data-engineering：AI管道、嵌入生成、RAG
- genai：生成式AI应用架构
- prompt-engineering：提示工程最佳实践

每个知识库领域包含index.md（索引）、quick-reference.md（速查）、concepts/（概念文档）和patterns/（生产代码模式）。代理按需加载，而非一次性加载全部内容。

## 智能命令系统

AgentSpec提供34个斜杠命令，覆盖数据工程全生命周期：

### 设计类命令

- `/pipeline`：设计数据管道/DAG
- `/schema`：设计星型模式
- `/lakehouse`：Lakehouse技术选型
- `/ai-pipeline`：设计RAG/嵌入管道

### 质量类命令

- `/data-quality`：添加数据质量检查
- `/sql-review`：SQL代码审查和优化
- `/data-contract`：创建数据合约

### 迭代命令

- `/iterate`：需求变更后的级联更新

这是AgentSpec的杀手级功能。当需求发生变化时，`/iterate`命令会自动检测所有下游文档的级联影响，确保整个项目保持一致性。

## 认知框架：代理的行为准则

每个AgentSpec代理都遵循统一的认知框架：

**知识库优先**：查询外部资源前先检查本地知识库，避免幻觉。

**置信度评分**：基于证据计算置信度，从不自我评估。代理会明确说明结论的可靠程度。

**升级感知**：当任务超出领域范围时，自动转交给合适的专家代理。

**质量门控**：每个实质性响应前执行预检清单，确保输出质量。

这种标准化行为模式确保了不同代理之间的协作顺畅，用户获得一致的交互体验。

## 项目结构：开箱即用

AgentSpec采用"配置即代码"理念，所有设置都版本化在仓库中：

```
sdd-for-antigravity/
├── GEMINI.md              # 项目上下文和编排规则
├── AGENTS.md              # 代理路由和升级映射
├── .gemini/               # Antigravity IDE配置
│   ├── settings.json      # 执行权限策略
│   └── mcp_config.json    # MCP服务器配置
├── .agents/
│   ├── rules/             # 63个代理定义
│   ├── commands/          # 34个斜杠命令
│   ├── skills/            # 可视化、图表生成技能
│   ├── kb/                # 25个知识库领域
│   └── sdd/               # 模板、合约、归档
└── docs/                  # 文档
```

克隆仓库后在Antigravity IDE中打开即可使用，无需额外配置。MCP服务器包括Context7（文档查询）、Sequential Thinking（结构化推理）和GitHub（PR管理）。

## 实用场景示例

### 场景1：电商订单管道

```
/brainstorm "从Postgres到Snowflake的每日订单管道，星型模式"
/define ORDERS_PIPELINE
/design ORDERS_PIPELINE
/build ORDERS_PIPELINE
/ship ORDERS_PIPELINE
```

### 场景2：SQL性能优化

```
/sql-review models/marts/fct_orders.sql
```

系统自动分析SQL查询，识别性能瓶颈，提供优化建议。

### 场景3：数据合约创建

```
/data-contract "订单团队与分析团队之间的合约"
```

生成正式的数据合约文档，定义模式、SLA、质量期望。

## 与类似项目的对比

相比其他AI数据工程工具，AgentSpec的独特之处在于：

**专业化程度**：63个代理覆盖数据工程全栈，而非通用AI助手。

**知识库驱动**：25个领域知识库确保输出符合行业最佳实践。

**结构化工作流**：五阶段流程强制规范开发，避免随意编码。

**级联感知**：需求变更自动传播到所有相关文档，维护一致性。

**IDE原生**：专为Antigravity IDE设计，深度集成而非外挂工具。

## 未来发展方向

AgentSpec项目正在积极发展，未来方向包括：

- 扩展知识库覆盖更多数据技术（如DuckDB、Polars）
- 增加更多可视化命令（架构图、数据血缘）
- 强化多代理协作的协调能力
- 开发自动测试生成功能
- 构建社区贡献的知识库扩展机制

对于数据工程师而言，AgentSpec代表了一种新的工作方式——从单打独斗到与专业代理团队协作，从随意编码到规范驱动开发。随着AI能力的持续提升，这种"人机协作"模式将成为数据工程的主流范式。
