Zing 论坛

正文

用大语言模型自动标注古代宪法:政治科学研究的AI新工具

constitution_llm项目展示了如何利用多模型LLM流水线自动分析历史政体宪法文本,提取9项关键政治指标,为大规模历史政治比较研究提供可复现的AI工具。

LLM政治科学历史宪法文本标注计算社会科学数字人文GitHub
发布时间 2026/06/01 10:12最近活动 2026/06/01 10:18预计阅读 2 分钟
用大语言模型自动标注古代宪法:政治科学研究的AI新工具
1

章节 01

【导读】constitution_llm:用LLM自动标注古代宪法的AI研究工具

constitution_llm项目是由deankuo开发的开源工具,通过多模型LLM流水线自动分析历史政体宪法文本,提取9项关键政治指标,解决传统手工标注耗时、一致性差的问题,为大规模历史政治比较研究提供可复现的AI工具。项目开源于GitHub(链接:https://github.com/deankuo/constitution_llm),发布时间为2026-06-01。

2

章节 02

背景:历史政治研究的数字化瓶颈

政治科学比较历史分析长期面临数字化困境:传统专家手工标注耗时费力,难以保证跨研究者、语言、时代的一致性和可复现性。古代宪法文本因古旧语言、特定术语、保存状况参差不齐,进一步加剧了标准化数据基础设施的缺失,成为跨文明比较(如罗马共和国与汉帝国制度异同)等研究的瓶颈。

3

章节 03

核心功能:多模型支持与九大政治指标体系

项目核心功能包括:

  1. 多模型支持:兼容Google Gemini、OpenAI、Anthropic Claude、AWS Bedrock等主流LLM,支持跨模型验证以提升结果置信度;
  2. 九大政治指标体系:定义主权属性(0/1二元编码)、联邦制程度(二元)、制衡机制(三级量表)、合议制(二元)、议会类型(四级编码)、任职方式(11类)、离职方式(16类)、选举竞争度(三级)等维度,实现结构化编码。
4

章节 04

技术机制:验证与使用模式

技术机制方面:

  • 验证策略:自洽性验证(同一输入3次采样多数投票)、验证链(CoVe,跨模型交叉检验关键指标);
  • 使用模式:单提示(快速测试)、多提示(推荐生产模式,减少指标干扰)、顺序提示(测试顺序影响);
  • 效率优化:支持并行处理提升批量效率,Gemini批处理API可节约50%成本。
5

章节 05

实际应用场景:助力多维度历史政治研究

工具可应用于多种研究场景:

  • 制度演变研究:追踪议会类型、选举制度等指标的长期变化;
  • 跨文明比较:系统对比欧洲、东亚、伊斯兰世界等的政治制度特征;
  • 民主化研究:通过任职/离职方式构建政体类型学;
  • 联邦制起源研究:识别早期联邦制实验,检验相关理论假设。
6

章节 06

局限性与未来改进方向

项目存在以下局限:

  • 历史偏见:LLM训练数据以现代文本为主,可能对前现代概念理解错位;
  • 语言覆盖:古语言(拉丁语、古典汉语等)处理能力待提升;
  • 验证链局限:当前"--verify both"仅运行CoVe,顺序验证未实现。 未来方向:引入历史语言模型、定制文明圈提示模板、建立专家标注基准数据集。
7

章节 07

结语:人机协作推动数字人文研究进步

constitution_llm是AI辅助历史政治学研究的重要尝试,将LLM能力与政治科学框架结合,提供可扩展的大规模历史文献处理方案。工具定位为专家判断的辅助起点,通过人机协作(自动标注+专家审核)推动数字人文研究。开源性质允许社区共同改进,助力领域方法论进步。