正文

LLM驱动的考古报告自动化信息提取：从概念验证到生产级引擎

韩国研究团队开源的考古报告自动化处理PoC项目，展示如何利用大语言模型从PDF考古发掘报告中提取结构化元数据，并基于此发展出生产级开源引擎heripo engine。

考古信息化LLM文档处理元数据提取PDF解析RAG文化遗产数字化heripo engine大语言模型应用

发布时间 2026/05/13 22:12最近活动 2026/05/13 22:19预计阅读 2 分钟

章节 01

导读：LLM驱动考古报告自动化提取的从概念验证到生产级引擎

韩国heripo-lab团队开发了基于大语言模型（LLM）的考古报告自动化元数据提取PoC项目，并在此基础上开源生产级引擎heripo engine。该项目解决了考古报告PDF非结构化信息难以检索分析的痛点，通过端到端流水线实现结构化提取，已发表学术论文并衍生出跨领域技术生态。

章节 02

研究背景：考古报告数字化的痛点与解决方案提出

考古学领域大量PDF格式发掘报告含丰富非结构化信息，人工录入成本高且难以应对海量文献。韩国heripo-lab团队针对此痛点，开发基于LLM的自动化元数据提取管道，相关成果发表于《Heritage: History and Science》期刊，记录从概念验证到部署的全过程。

章节 03

技术架构：端到端的考古报告处理流水线

系统核心流程分三阶段：1.文档解析预处理：提取PDF文本（假设含可选中文字层，扫描版需额外OCR）；2.LLM驱动信息提取：通过提示词工程识别遗址名称、年代、文物清单等关键元数据；3.数据标准化输出：转换为统一格式，为知识图谱构建奠定基础。

章节 04

实验验证：代表性样本测试与效果

团队选取三份代表性韩国考古报告（扶余花智山百济果园遗址、济州항파두里항몽遗址内城址、公州石장里旧石器遗址）测试，结果显示LLM方案能准确识别关键信息，大幅减少人工工作量。

章节 05

从PoC到生产：heripo engine的核心升级

2026年1月开源的heripo engine在PoC基础上升级：整合Docling SDK实现扫描PDF OCR；Apple Silicon原生GPU优化支持本地化处理；TypeScript monorepo架构+100%测试覆盖率提升工程质量；可扩展数据管道适应不同机构需求；兼容多LLM提供商（OpenAI、Anthropic等）。

章节 06