章节 01
EDGAR数据集导读:大语言模型驱动的地缘政治事件自动化提取工具
HCSS数据实验室发布的EDGAR数据集,利用大语言模型从英语新闻中自动提取地缘政治事件,采用PLOVER本体论定义的16种事件类型,并扩展三边角色以捕捉多边互动,为国际关系研究提供结构化事件数据,且采用CC BY 4.0开放许可支持学术研究与二次开发。
正文
HCSS数据实验室发布的EDGAR数据集,利用大语言模型从英语新闻中自动提取地缘政治事件,采用PLOVER本体论并扩展三边角色,为国际关系研究提供结构化事件数据。
章节 01
HCSS数据实验室发布的EDGAR数据集,利用大语言模型从英语新闻中自动提取地缘政治事件,采用PLOVER本体论定义的16种事件类型,并扩展三边角色以捕捉多边互动,为国际关系研究提供结构化事件数据,且采用CC BY 4.0开放许可支持学术研究与二次开发。
章节 02
在国际关系等领域,结构化事件数据是定量分析基础,但传统人工编码效率低下且难以规模化。随着大语言模型能力提升,自动化事件提取成为可能,HCSS数据实验室的EDGAR项目正是这一趋势的代表性成果。
章节 03
EDGAR(Event Dataset using Geopolitical Analysis and Retrieval)的核心特点包括:自动化提取、标准化PLOVER本体论(16种根事件类型,分口头合作、物质合作、口头冲突、物质冲突四类)、扩展三边角色、开放许可。PLOVER的16类事件如CONSULT(磋商)、AGREE(同意)、AID(援助)、ASSAULT(攻击)等,可快速识别事件性质。
章节 04
传统事件数据集多采用“行为者-接收者”二元结构,EDGAR引入“第三方”角色,能捕捉更复杂多边互动。例如美俄就乌克兰问题会谈中,行为者为美国、接收者为俄罗斯、第三方为乌克兰,三元结构更准确反映国际关系复杂性。
章节 05
EDGAR提供EDGAR_non_dedup.csv(去重前)和EDGAR_dedup.csv(去重后)两个文件,核心字段包括event_date、article_date、event_summary、source_quote、core_sentence、event_type、actor/recipient/third_party等。去重机制通过语义相似度(all-MiniLM-L6-v2)、行为者Jaccard相似度、事件类型匹配、元数据重叠等多维度加权计算,再经图聚类合并相似事件。
章节 06
EDGAR当前覆盖2024年2月1日至6月30日的英语新闻,应用场景包括冲突预警(监测ASSAULT等事件频率)、外交关系分析(追踪合作事件)、制裁研究(SANCTION时间序列)、多边关系网络构建。局限性有:仅覆盖英语新闻、单一来源可能有偏见、模型推断字段存在错误、时间范围短。
章节 07
EDGAR与POLECAT对比:提取技术(LLM vs 传统NLP)、角色模型(三边vs双边)、事件粒度(核心事件vs多个相关事件)。结语:EDGAR是地缘政治事件数据提取向自动化智能化转型的重要尝试,未来扩大数据覆盖和完善方法论将在理解全球政治动态中发挥更大作用。