Zing 论坛

正文

Naamah:用DBpedia种子与混合推理大模型构建十万级梵文命名实体识别语料库

研究团队推出Naamah数据集,通过DBpedia实体提取与24B参数混合推理模型生成10.3万句高质量梵文NER语料,并对比XLM-RoBERTa与IndicBERTv2性能表现。

梵文NER命名实体识别DBpedia混合推理模型低资源语言XLM-RoBERTaIndicBERTv2数据增强古典语言数字化
发布时间 2026/04/29 17:12最近活动 2026/04/30 12:47预计阅读 2 分钟
Naamah:用DBpedia种子与混合推理大模型构建十万级梵文命名实体识别语料库
1

章节 01

Naamah数据集:十万级梵文NER语料库的构建与价值

研究团队推出Naamah数据集,通过DBpedia实体提取与24B参数混合推理模型生成10.3万句高质量梵文NER语料,并对比XLM-RoBERTa与IndicBERTv2性能表现。该数据集是目前规模最大的合成梵文NER数据集,为低资源古典语言数字化提供创新路径。

2

章节 02

梵文数字化的核心瓶颈:高质量NER标注语料缺乏

古典梵文文献数字化长期受限于高质量NER标注语料不足。梵文作为印度古典学术、宗教与哲学文献核心载体,其数字化对人文学科研究和跨语言知识图谱构建意义重大,但传统人工标注成本极高,通用大语言模型在古典语法推理上的不足导致自动标注质量堪忧。

3

章节 03

技术方案:DBpedia种子+24B混合推理模型的创新结合

第一阶段:DBpedia实体种子提取

从DBpedia知识库提取梵文相关实体作为种子,利用其跨语言实体对齐信息提供可靠起点。

第二阶段:240亿参数混合推理模型生成

采用24B参数混合推理模型,具有三大优势:

  • 深度理解梵文复杂古典语法规则
  • 保证语法正确的同时创造丰富句式变体
  • 古典语言处理幻觉率更低 输入实体种子生成语法自然、标注准确的合成句子。
4

章节 04

模型测试:XLM-RoBERTa与IndicBERTv2的性能对比

使用Naamah训练两个Transformer架构验证数据集质量:

XLM-RoBERTa

作为跨语言迁移标杆模型,预训练于100种语言,能充分利用跨语言知识迁移优势。

IndicBERTv2

专注印度语言家族,参数高效设计,在特定语言家族内以更少参数达到甚至超越通用多语言模型性能。

5

章节 05

实践意义与未来方向:为低资源古典语言NLP提供参考

Naamah数据集为低资源古典语言NLP研究提供重要参考,其“知识库种子+领域专用大模型生成”方法论可推广到巴利文、藏文等其他古典语言处理。同时,混合推理架构的发展显示大模型在低资源语言深度理解任务中的潜力。

6

章节 06

Naamah数据集的核心亮点回顾

  • 目前规模最大的合成梵文NER数据集(10.3万句)
  • 创新性结合DBpedia知识库与240亿参数混合推理模型
  • 对比测试验证数据集对XLM-RoBERTa和IndicBERTv2的训练效果
  • 为古典语言数字化提供可复用技术路径