# Automap：基于多智能体架构的自动化知识图谱生成系统

> Automap 是一个利用大语言模型和 LangGraph 实现自动化 RML 映射与知识图谱物化的智能体流水线，采用去中心化多智能体架构完成从 CSV 模式分析到最终 KG 验证的完整流程。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-29T08:45:31.000Z
- 最近活动: 2026-05-29T08:49:42.277Z
- 热度: 163.9
- 关键词: 知识图谱, RML, YARRRML, LangGraph, 多智能体, 自动化映射, 本体, SHACL, SPARQL, 数据集成
- 页面链接: https://www.zingnex.cn/forum/thread/automap
- Canonical: https://www.zingnex.cn/forum/thread/automap
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：ProyectoPIONERA
- 来源平台：github
- 原始标题：automap
- 原始链接：https://github.com/ProyectoPIONERA/automap
- 来源发布时间/更新时间：2026-05-29T08:45:31Z

## 原作者与来源\n\n- **原作者/维护者**：ProyectoPIONERA\n- **来源平台**：GitHub\n- **原始标题**：automap\n- **原始链接**：<https://github.com/ProyectoPIONERA/automap>\n- **发布时间**：2026-05-29\n\n---\n\n## 项目背景与问题定义\n\n在数据集成与语义网领域，将结构化数据（如 CSV）转换为知识图谱（Knowledge Graph, KG）是一项常见但复杂的工作。传统方法需要领域专家手动编写 RML（RDF Mapping Language）映射规则，这一过程不仅耗时，而且容易出错。随着大语言模型（LLM）的兴起，研究人员开始探索如何利用 LLM 的推理能力来自动化这一流程。\n\nAutomap 项目正是在这一背景下诞生的。它旨在构建一个完全自动化的智能体流水线，能够在无需人工干预的情况下，完成从 CSV 模式分析到最终知识图谱物化的全过程。\n\n---\n\n## 系统架构概览\n\nAutomap 采用去中心化的多智能体架构，基于 LangGraph 实现智能体间的协作与状态流转。整个流水线包含以下核心阶段：\n\n### 1. 模式分析（Schema Analysis）\n\n系统首先提取 CSV 文件的列名、样本值，并推断数据类型。这一阶段为后续的语义映射奠定基础。\n\n### 2. 本体侦察（Ontology Scout）\n\n解析用户提供的本体文件（Ontology），识别其中定义的类（Classes）、对象属性（Object Properties）和数据属性（Data Properties）。\n\n### 3. 语义映射（Semantic Mapper）\n\n利用 LLM 的推理能力，将 CSV 列映射到本体概念。这一阶段是连接原始数据与语义层的关键。\n\n### 4. 模式对齐（Schema Alignment）\n\n判断应采用扁平结构还是多节点结构进行映射，规划实体主语和跨引用关系，自动注入缺失列并防止断开的映射。\n\n### 5. 能力问题生成（CQ Generation）\n\n自动生成 Competency Questions（能力问题）或接受用户提供的问题，这些问题将用于后续验证生成的知识图谱是否满足需求。\n\n### 6. YARRRML 生成（去中心化设计）\n\n这是系统的核心创新之一。YARRRML 生成被拆分为三个专门的智能体：\n\n- **PrefixAgent**：负责前缀声明的生成\n- **EntityAgent**：负责实体映射的生成\n- **RelationshipAgent**：负责关系映射的生成\n\nPrefixAgent 和 EntityAgent 可以并行执行，显著缩短生成时间。同时，前缀声明通过 KV-Cache 复用，避免每次重试时重新生成。\n\n---\n\n## 自校正与验证机制\n\nAutomap 内置了多层次的自校正机制，确保输出质量：\n\n### 语法验证（Syntax Validation）\n\n使用 `yatter` 工具验证生成的 YARRRML 语法，支持最多 10 次重试。\n\n### 逻辑精炼（Logic Refinement）\n\n检查结构性问题，如断开的映射、缺失列、错误的数据类型，支持最多 6 次重试。\n\n### SHACL 验证\n\n可选的 `--shacl` 标志启用基于本体的形状验证。系统采用三级策略生成形状：\n\n1. 首先尝试 Astrea REST API\n2. 回退到基于 rdflib 的本地形状生成\n3. 最后使用结构性正确性形状作为保底\n\n### SPARQL CQ 验证\n\n将能力问题翻译为 SPARQL ASK 查询，在内存中的 pyoxigraph 存储上执行验证。这一过程无需外部 SPARQL 端点，简化了部署。\n\n---\n\n## 终端优先的可观测性设计\n\n与许多依赖 LangSmith 等云端监控工具的项目不同，Automap 采用"终端优先"的设计理念。开发者可以直接在控制台查看：\n\n- 实时阶段跟踪：显示当前活动的节点及其耗时\n- 阶段时间汇总：运行结束时显示各阶段的时间消耗和进度条\n- 逻辑精炼反馈：Logic Refiner 智能体直接在终端输出结构性审查意见\n- 语法验证状态：即时的 PASS/FAIL 报告及错误摘要\n- SHACL 结果：内联显示违规数量、形状来源和重试路由决策\n- CQ 验证：每个问题的 PASS/FAIL 明细及 SPARQL 重试状态\n\n这种设计避免了对外部云服务的依赖，特别适合对数据隐私敏感或网络受限的场景。\n\n---\n\n## 技术实现细节\n\n### 环境管理\n\n项目使用 `uv` 进行快速的 Python 依赖管理，支持 Docker 容器化执行。针对 Morph-KGC 的兼容性补丁通过脚本自动应用。\n\n### 模型配置\n\n系统支持通过环境变量灵活配置不同智能体使用的模型：\n\n- `LLM_MODEL_DEFAULT`：默认模型\n- `LLM_MODEL_SCHEMA`：模式分析专用\n- `LLM_MODEL_MAPPER`：语义映射专用\n- `LLM_MODEL_YARRRML`：YARRRML 生成专用\n- `LLM_MODEL_CQ`：CQ 生成与 SPARQL 翻译专用\n\n这种设计允许用户根据任务复杂度选择不同的模型，例如在模式推理上使用 DeepSeek，在代码生成上使用 Qwen。\n\n### 多级评估\n\n运行结束后，系统提供多维度评估指标：\n\n- 流水线成功率\n- 与标准 KG 的对比（精确率/召回率/F1）\n- 列覆盖率\n- CQ 覆盖率\n\n---\n\n## 应用场景与价值\n\nAutomap 适用于以下场景：\n\n1. **企业数据集成**：将遗留系统的 CSV 导出自动转换为标准知识图谱\n2. **学术研究**：快速构建领域本体对应的数据集\n3. **数据治理**：统一不同来源数据的语义表示\n4. **低代码 KG 构建**：降低知识图谱构建的技术门槛\n\n---\n\n## 总结与展望\n\nAutomap 代表了 LLM 驱动数据工程的一个重要方向：通过智能体架构将复杂的 ETL 流程自动化。其去中心化的 YARRRML 生成设计、多层次的验证机制和终端优先的可观测性理念，为类似项目提供了有价值的参考。\n\n随着项目持续开发，可以期待在更多数据源支持、更复杂的映射场景处理以及与其他 KG 工具链的集成方面看到进一步进展。