正文

SciDef：用大语言模型自动化提取学术文献中的定义

一个基于 LLM 的学术定义自动提取框架，包含完整的处理流水线、人工标注数据集和评估脚本，支持从科学文献中自动识别和提取关键术语的定义。

定义提取学术文献信息抽取LLMNLP数据集知识图谱开源项目

发布时间 2026/05/29 15:44最近活动 2026/05/29 15:50预计阅读 3 分钟

章节 01

导读 / 主楼：SciDef：用大语言模型自动化提取学术文献中的定义

一个基于 LLM 的学术定义自动提取框架，包含完整的处理流水线、人工标注数据集和评估脚本，支持从科学文献中自动识别和提取关键术语的定义。

章节 02

原作者与来源

原作者/维护者：Media-Bias-Group
来源平台：GitHub
原始标题：SciDef: Automating Definition Extraction from Academic Literature with Large Language Models
原始链接：https://github.com/Media-Bias-Group/SciDef
来源发布时间/更新时间：2026-05-29T07:44:23Z

章节 03

研究背景与挑战

在学术研究领域，随着论文发表数量的爆炸式增长，研究人员面临着信息过载的巨大挑战。当需要了解某个专业术语的定义时，传统的做法是在海量文献中手动检索，这不仅耗时费力，而且容易遗漏重要来源。

定义提取（Definition Extraction）作为信息抽取的一个重要分支，旨在从非结构化文本中自动识别和提取术语的定义。然而，学术文献具有其独特的语言特征：专业术语密集、句式复杂、上下文依赖性强，这使得通用的自然语言处理工具难以取得理想效果。

SciDef 项目正是针对这一挑战，探索如何利用大语言模型的强大理解能力，自动化地从学术文献中提取术语定义。

章节 04

项目概述

SciDef 是由 Media Bias Group 研究团队开发的开源项目，配套发表于 CIKM 2026 的同名论文。该项目提供了一套完整的资源，支持学术定义提取和定义相似度计算的研究。

项目包含以下核心组件：

基于 LLM 的定义提取流水线
用于运行和评估定义提取的脚本工具
DefExtra：人工标注的定义提取数据集
DefSim：人工标注的定义相似度数据集
涵盖多种模型、提示策略和相似度指标的评估脚本
DSPy 优化的提示词配置（支持多种开源和专有模型）

章节 05

DefExtra：定义提取数据集

DefExtra 是一个专门用于评估定义提取任务的人工标注数据集，已在 Hugging Face 平台公开发布。

数据集内容：

从 75 篇论文中提取的 268 条定义
涵盖 60 篇媒体偏见相关论文和 15 篇非媒体偏见相关论文

数据格式说明：公开版本提供的是标记位置信息（markers），而非完整的文本摘录。用户需要基于自己的 PDF 文档进行数据补全（hydrate），然后将补全后的 CSV 转换为 SciDef 的 JSON 真值格式。项目文档中提供了详细的集成指南。

章节 06

DefSim：定义相似度数据集

DefSim 是用于评估定义相似度计算的人工标注数据集。

数据集内容：

60 对定义组合
采用 1-5 分的相似度评分量表

该数据集可用于训练和评估模型判断两个定义在语义上的相似程度，这在术语消歧、知识图谱构建等场景中具有重要应用价值。

章节 07

环境配置

SciDef 采用 uv 进行包管理和环境配置，这是 Astral 公司开发的现代 Python 包管理工具，具有速度快、兼容性好的特点。

# 克隆仓库
git clone https://github.com/Media-Bias-Group/SciDef.git
cd SciDef

# 使用 uv 运行脚本
uv run python scripts/benchmark_nli.py --datasets stsb sick --sample-size 100

章节 08