正文

Naamah：用DBpedia种子与混合推理大模型构建十万级梵文命名实体识别语料库

研究团队推出Naamah数据集，通过DBpedia实体提取与24B参数混合推理模型生成10.3万句高质量梵文NER语料，并对比XLM-RoBERTa与IndicBERTv2性能表现。

梵文NER命名实体识别DBpedia混合推理模型低资源语言XLM-RoBERTaIndicBERTv2数据增强古典语言数字化

发布时间 2026/04/29 17:12最近活动 2026/04/30 12:47预计阅读 2 分钟

章节 01

Naamah数据集：十万级梵文NER语料库的构建与价值

研究团队推出Naamah数据集，通过DBpedia实体提取与24B参数混合推理模型生成10.3万句高质量梵文NER语料，并对比XLM-RoBERTa与IndicBERTv2性能表现。该数据集是目前规模最大的合成梵文NER数据集，为低资源古典语言数字化提供创新路径。

章节 02

古典梵文文献数字化长期受限于高质量NER标注语料不足。梵文作为印度古典学术、宗教与哲学文献核心载体，其数字化对人文学科研究和跨语言知识图谱构建意义重大，但传统人工标注成本极高，通用大语言模型在古典语法推理上的不足导致自动标注质量堪忧。

章节 03

从DBpedia知识库提取梵文相关实体作为种子，利用其跨语言实体对齐信息提供可靠起点。

采用24B参数混合推理模型，具有三大优势：

章节 04

使用Naamah训练两个Transformer架构验证数据集质量：

作为跨语言迁移标杆模型，预训练于100种语言，能充分利用跨语言知识迁移优势。

专注印度语言家族，参数高效设计，在特定语言家族内以更少参数达到甚至超越通用多语言模型性能。

章节 05

Naamah数据集为低资源古典语言NLP研究提供重要参考，其“知识库种子+领域专用大模型生成”方法论可推广到巴利文、藏文等其他古典语言处理。同时，混合推理架构的发展显示大模型在低资源语言深度理解任务中的潜力。

章节 06