Zing 论坛

正文

SciDef:用大语言模型自动化提取学术文献中的定义

一个基于 LLM 的学术定义自动提取框架,包含完整的处理流水线、人工标注数据集和评估脚本,支持从科学文献中自动识别和提取关键术语的定义。

定义提取学术文献信息抽取LLMNLP数据集知识图谱开源项目
发布时间 2026/05/29 15:44最近活动 2026/05/29 15:50预计阅读 3 分钟
SciDef:用大语言模型自动化提取学术文献中的定义
1

章节 01

导读 / 主楼:SciDef:用大语言模型自动化提取学术文献中的定义

一个基于 LLM 的学术定义自动提取框架,包含完整的处理流水线、人工标注数据集和评估脚本,支持从科学文献中自动识别和提取关键术语的定义。

2

章节 02

原作者与来源

  • 原作者/维护者:Media-Bias-Group
  • 来源平台:GitHub
  • 原始标题:SciDef: Automating Definition Extraction from Academic Literature with Large Language Models
  • 原始链接:https://github.com/Media-Bias-Group/SciDef
  • 来源发布时间/更新时间:2026-05-29T07:44:23Z
3

章节 03

研究背景与挑战

在学术研究领域,随着论文发表数量的爆炸式增长,研究人员面临着信息过载的巨大挑战。当需要了解某个专业术语的定义时,传统的做法是在海量文献中手动检索,这不仅耗时费力,而且容易遗漏重要来源。

定义提取(Definition Extraction)作为信息抽取的一个重要分支,旨在从非结构化文本中自动识别和提取术语的定义。然而,学术文献具有其独特的语言特征:专业术语密集、句式复杂、上下文依赖性强,这使得通用的自然语言处理工具难以取得理想效果。

SciDef 项目正是针对这一挑战,探索如何利用大语言模型的强大理解能力,自动化地从学术文献中提取术语定义。

4

章节 04

项目概述

SciDef 是由 Media Bias Group 研究团队开发的开源项目,配套发表于 CIKM 2026 的同名论文。该项目提供了一套完整的资源,支持学术定义提取和定义相似度计算的研究。

项目包含以下核心组件:

  • 基于 LLM 的定义提取流水线
  • 用于运行和评估定义提取的脚本工具
  • DefExtra:人工标注的定义提取数据集
  • DefSim:人工标注的定义相似度数据集
  • 涵盖多种模型、提示策略和相似度指标的评估脚本
  • DSPy 优化的提示词配置(支持多种开源和专有模型)
5

章节 05

DefExtra:定义提取数据集

DefExtra 是一个专门用于评估定义提取任务的人工标注数据集,已在 Hugging Face 平台公开发布。

数据集内容:

  • 从 75 篇论文中提取的 268 条定义
  • 涵盖 60 篇媒体偏见相关论文和 15 篇非媒体偏见相关论文

数据格式说明: 公开版本提供的是标记位置信息(markers),而非完整的文本摘录。用户需要基于自己的 PDF 文档进行数据补全(hydrate),然后将补全后的 CSV 转换为 SciDef 的 JSON 真值格式。项目文档中提供了详细的集成指南。

6

章节 06

DefSim:定义相似度数据集

DefSim 是用于评估定义相似度计算的人工标注数据集。

数据集内容:

  • 60 对定义组合
  • 采用 1-5 分的相似度评分量表

该数据集可用于训练和评估模型判断两个定义在语义上的相似程度,这在术语消歧、知识图谱构建等场景中具有重要应用价值。

7

章节 07

环境配置

SciDef 采用 uv 进行包管理和环境配置,这是 Astral 公司开发的现代 Python 包管理工具,具有速度快、兼容性好的特点。

# 克隆仓库
git clone https://github.com/Media-Bias-Group/SciDef.git
cd SciDef

# 使用 uv 运行脚本
uv run python scripts/benchmark_nli.py --datasets stsb sick --sample-size 100
8

章节 08

脚本工具集

项目在 scripts/ 目录下提供了丰富的实用脚本:

  • 定义提取流水线的运行脚本
  • 多种评估方法的实现
  • 其他辅助工具函数