# EDGAR：用大语言模型自动提取地缘政治事件的全新数据集

> HCSS数据实验室发布的EDGAR数据集，利用大语言模型从英语新闻中自动提取地缘政治事件，采用PLOVER本体论并扩展三边角色，为国际关系研究提供结构化事件数据。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-05-12T08:53:17.000Z
- 最近活动: 2026-05-12T09:00:13.499Z
- 热度: 150.9
- 关键词: EDGAR, 地缘政治, 事件数据, 大语言模型, PLOVER, 国际关系, 数据集, 自动化提取
- 页面链接: https://www.zingnex.cn/forum/thread/edgar
- Canonical: https://www.zingnex.cn/forum/thread/edgar
- Markdown 来源: ingested_event

---

## 研究背景：地缘政治事件数据的自动化需求\n\n在国际关系、政治科学和冲突研究领域，结构化事件数据是进行定量分析的基础。传统的事件数据编码依赖人工阅读新闻并手动标注，效率低下且难以规模化。随着大语言模型（LLM）能力的提升，自动化事件提取成为可能。\n\n荷兰海牙战略研究中心（HCSS）数据实验室发布的EDGAR项目，正是这一趋势的代表性成果。EDGAR利用大语言模型从英语新闻专线文章中自动提取地缘政治事件，构建了一个结构化、可扩展的事件数据集。\n\n## 什么是EDGAR？\n\nEDGAR（Event Dataset using Geopolitical Analysis and Retrieval）是一个地缘政治事件数据集，其核心特点包括：\n\n- **自动化提取**：完全由大语言模型从原始新闻文本中提取事件\n- **标准化本体**：采用PLOVER（Programmable Linguistic Ontology for Variable Extraction and Retrieval）定义的16种事件类型\n- **扩展角色模型**：在传统"行为者-接收者"二元结构基础上，引入"第三方"角色以捕捉多边互动\n- **开放许可**：采用CC BY 4.0许可，支持学术研究和二次开发\n\n## PLOVER本体论：16类事件类型详解\n\nEDGAR采用PLOVER定义的16种根事件类型，这些类型可映射到四个象限类别：\n\n### 口头合作类（Verbal Cooperation）\n\n- **CONSULT（磋商）**：行为者与接收者就某项议题进行讨论或协商\n- **AGREE（同意）**：行为者表达对接收者的同意、认可或支持\n- **SUPPORT（支持）**：行为者对接收者表示声援或道义支持\n- **CONCEDE（让步）**：行为者向接收者做出让步或妥协\n\n### 物质合作类（Material Cooperation）\n\n- **AID（援助）**：行为者向接收者提供经济、军事或人道主义援助\n- **COOPERATE（合作）**：行为者与接收者开展实质性合作\n- **RETREAT（撤退）**：行为者从某地区或立场撤退，通常带有缓和冲突的意味\n\n### 口头冲突类（Verbal Conflict）\n\n- **ACCUSE（指控）**：行为者对接收者提出指责或控诉\n- **REQUEST（请求）**：行为者向接收者提出某种要求\n- **THREATEN（威胁）**：行为者对接收者发出威胁或警告\n- **REJECT（拒绝）**：行为者明确拒绝接收者的要求或提议\n\n### 物质冲突类（Material Conflict）\n\n- **ASSAULT（攻击）**：行为者对接收者实施军事攻击或暴力行动\n- **SANCTION（制裁）**：行为者对接收者实施经济或政治制裁\n- **COERCE（胁迫）**：行为者通过武力或压力迫使接收者采取行动\n- **MOBILIZE（动员）**：行为者调动军事力量或进行战争准备\n- **PROTEST（抗议）**：行为者对接收者发起示威或抗议活动\n\n这种分类体系使得研究者可以快速识别事件的性质——是合作还是冲突，是口头表态还是实际行动。\n\n## 三边角色模型：超越二元互动\n\n传统的事件数据集通常采用"行为者-接收者"二元结构。EDGAR的创新之处在于引入了"第三方"（Third Party）角色，使得系统能够捕捉更复杂的多边互动场景。\n\n例如，在一则关于"美国与俄罗斯就乌克兰问题举行会谈"的新闻中：\n- **行为者**：美国\n- **接收者**：俄罗斯\n- **第三方**：乌克兰\n\n这种三元结构更准确地反映了国际关系的复杂性，避免了将多边事件强行简化为双边关系的失真。\n\n## 数据格式与字段说明\n\nEDGAR提供两个主要数据文件：\n\n### EDGAR_non_dedup.csv（去重前数据）\n\n包含实体归一化后、去重步骤前的原始输出。每篇文章可能产生多个事件记录，适合需要完整事件覆盖的研究场景。\n\n### EDGAR_dedup.csv（去重后数据）\n\n经过相似度去重处理后的数据，相似事件被合并为单一记录。适合需要事件唯一性的统计分析。\n\n核心字段包括：\n\n- **event_date**：事件发生的日期（由模型从文本推断）\n- **article_date**：新闻文章的发布日期\n- **event_summary**：模型生成的事件自然语言摘要\n- **source_quote**：原文中的关键引用片段（最多20词）\n- **core_sentence**：规范化的"行为者-动词-接收者"形式\n- **event_type**：PLOVER事件类型\n- **category**：CONFLICT（冲突）或COOPERATION（合作）\n- **actor/recipient/third_party**：各角色的名称、国家、归一化形式及ID\n- **location**：事件涉及的地理位置信息\n\n去重版本还包含相似度评分字段（score_total、score_semantic、score_actors等），记录了事件合并的置信度。\n\n## 去重机制：基于图聚类的相似度合并\n\nEDGAR的去重流程采用多维度相似度计算：\n\n1. **语义相似度**：基于all-MiniLM-L6-v2模型计算事件摘要的向量余弦相似度\n2. **行为者相似度**：计算行为者和接收者名称集合的Jaccard相似度\n3. **事件类型匹配**：事件类型是否一致（二值评分）\n4. **元数据重叠**：地理位置重叠程度\n\n这些维度被加权组合为综合相似度评分，超过阈值的事件对在相似度图上形成边，最终通过连通分量算法将相似事件聚类合并。\n\n## 数据覆盖与应用场景\n\n当前发布的数据集覆盖2024年2月1日至6月30日的时间段，来源于单一商业新闻数据提供商的英语新闻专线文章。\n\n典型应用场景包括：\n\n- **冲突预警**：通过监测ASSAULT、THREATEN、MOBILIZE等事件类型的频率变化，识别潜在冲突热点\n- **外交关系分析**：追踪CONSULT、AGREE、AID等合作事件，量化国家间关系改善或恶化\n- **制裁研究**：SANCTION事件的时间序列分析，研究制裁政策的传播效应\n- **多边关系网络**：利用第三方角色信息，构建国际互动的网络模型\n\n## 局限性与注意事项\n\n使用EDGAR数据时需注意以下局限：\n\n- **语言局限**：仅覆盖英语新闻，非英语国家的事件可能被低估\n- **来源单一**：当前版本仅基于单一新闻提供商，可能存在报道偏见\n- **模型推断**：事件日期、角色识别等字段由模型推断，存在错误可能\n- **时间范围**：当前发布仅覆盖5个月数据，长期趋势分析需等待后续更新\n\n## 与POLECAT的比较\n\n论文中EDGAR与POLECAT（另一知名事件数据集）进行了对比评估。主要区别在于：\n\n- **提取技术**：EDGAR采用大语言模型，POLECAT采用传统NLP方法\n- **角色模型**：EDGAR支持三边角色，POLECAT限于双边\n- **事件粒度**：EDGAR提取"核心事件"，POLECAT可能提取多个相关事件\n\n## 结语\n\nEDGAR代表了地缘政治事件数据提取从人工编码向自动化、智能化转型的重要尝试。通过大语言模型的应用，结合严谨的PLOVER本体论和创新的三边角色模型，EDGAR为国际关系研究提供了新的数据基础设施。随着数据覆盖范围的扩大和方法论的不断完善，这类自动化事件数据集将在理解全球政治动态方面发挥越来越重要的作用。
