正文

用AI解读历史：大语言模型如何分类19世纪瑞典专利文献

一项结合KB-BERT模型和生成式大语言模型的研究项目，成功对19世纪瑞典历史专利进行自动分类，展示了AI在历史文献数字化和知识挖掘中的潜力。

大语言模型历史文献专利分类BERT数字人文瑞典语NLP文本分类KB-BERT预训练模型

发布时间 2026/05/27 16:44最近活动 2026/05/27 16:51预计阅读 3 分钟

章节 01

导读：用AI分类19世纪瑞典专利文献的核心成果与意义

核心观点

一项结合KB-BERT模型和生成式大语言模型的研究项目，成功对19世纪瑞典历史专利进行自动分类，展示了AI在历史文献数字化和知识挖掘中的潜力。

基础信息

原作者/维护者：yuntingxie
来源平台：GitHub
原始标题：patent_classification
原始链接：https://github.com/yuntingxie/patent_classification
发布时间：2026年5月27日
相关论文："You have no class! Large Language Model Classification of Nineteenth Century Patents in Sweden, 1852-1914"

章节 02

项目背景与研究意义

历史文献的数字化和自动分析是数字人文领域的重要课题。瑞典历史专利基础设施项目保存了1852-1914年间大量专利文献，记录了工业革命时期技术创新轨迹，但人工分类耗时费力且需专业知识。随着大语言模型技术发展，本项目探索AI自动化处理历史文献分类任务，验证其有效性。

章节 03

技术方案与实现方法

核心模型

KB-BERT微调方案：基于瑞典国家图书馆训练的KB-BERT模型，以专利标题为输入，在DPK分类体系上监督微调。
生成式大语言模型方案：通过提示工程引导生成式模型输出分类结果。

数据处理

数据来源：瑞典历史专利基础设施（https://svenskahistoriskapatent.se/）1852-1914年专利文献
分类体系：DPK（Det Preliminära Klassifikationssystemet）历史专利分类标准

技术细节

环境要求：Python 3.10+，依赖pandas、numpy、torch、transformers、scikit-learn、tqdm
硬件支持：NVIDIA T4 GPU或CPU
KB-BERT获取：https://huggingface.co/KB/bert-base-swedish-cased

章节 04

研究成果与学术价值

主要发现

微调后的KB-BERT模型在19世纪瑞典专利分类任务中表现出色，有效识别技术类别，验证了预训练模型在历史文献处理中的潜力。

学术贡献

方法论创新：将现代NLP技术应用于历史文献研究
数据集建设：提供可复用的技术方案
跨学科融合：连接计算机科学与历史学

数据开放

团队承诺发布完整数据集并配套数据论文，促进后续研究。

章节 05

应用前景与启示

历史文献数字化

可推广至古籍分类、档案整理、历史报刊主题建模等大规模历史文献数字化工作。

数字人文范式

AI技术大幅提升文献整理效率，让研究者聚焦深度分析与知识发现。

低资源语言处理

KB-BERT的成功为瑞典语等中等资源语言处理提供参考，领域特定微调可实现实用效果。

章节 06

技术亮点总结

领域适配：针对19世纪瑞典专利特殊语言风格优化模型
多模型对比：系统比较判别式（KB-BERT）与生成式模型性能差异
可复现性：完整代码与数据发布计划确保研究可复现
跨语言应用：展示预训练模型在历史低资源语言处理中的有效性