章节 01
导读 / 主楼:bsllmner-mk2:用 LLM 从生物样本记录中提取命名实体并映射到本体术语
日本 DBCLS 团队开源的生物医学 NLP 工具,结合 Ollama 本地大模型,实现从 BioSample 元数据中提取细胞系、组织、生物体等实体,并自动映射到 Cellosaurus、UBERON 等标准本体。
正文
日本 DBCLS 团队开源的生物医学 NLP 工具,结合 Ollama 本地大模型,实现从 BioSample 元数据中提取细胞系、组织、生物体等实体,并自动映射到 Cellosaurus、UBERON 等标准本体。
章节 01
日本 DBCLS 团队开源的生物医学 NLP 工具,结合 Ollama 本地大模型,实现从 BioSample 元数据中提取细胞系、组织、生物体等实体,并自动映射到 Cellosaurus、UBERON 等标准本体。
章节 02
在生物医学研究中,海量的样本元数据往往以非结构化文本形式存在,这给数据整合与分析带来了巨大挑战。bsllmner-mk2 是由日本数据库中心生命科学(DBCLS)开发的开源工具,专门用于从 BioSample 数据库记录中提取生物学命名实体,并利用大型语言模型(LLM)将其映射到标准化的本体术语。
该项目基于原始版本 sh-ikeda/bsllmner 进行重构升级,采用现代化的 Python 技术栈,提供了更灵活的部署方式和更完善的文档支持。相关研究成果已发表于预印本平台 bioRxiv。
章节 03
bsllmner-mk2 提供两种主要工作模式,分别对应命名实体识别流程中的不同环节:
章节 04
Extract 模式专注于**命名实体识别(NER)**任务。它能够从 BioSample 的元数据描述中自动识别并提取以下类型的生物学实体:
该模式利用 LLM 强大的语义理解能力,能够处理描述方式多样、格式不统一的自由文本,克服了传统基于规则或词典的方法在处理复杂描述时的局限性。
章节 05
Select 模式在 Extract 模式的基础上进一步扩展,将提取出的实体术语映射到权威的本体数据库条目:
这种映射机制确保了提取结果的可追溯性和互操作性,使得来自不同数据源的信息能够在统一的语义框架下进行整合分析。
章节 06
bsllmner-mk2 使用 Ollama 作为 LLM 推理服务器,这一设计带来了显著优势:
章节 07
# 启动服务
docker compose up -d --build
# 运行提取任务
docker compose exec app bsllmner2_extract \
--bs-entries tests/data/example_biosample.json \
--model llama3.1:70b --debug
项目还支持通过 uv 进行原生 Python 部署,以及针对 GPU 环境的配置优化,满足不同场景下的性能需求。
章节 08
在 ChIP-Atlas 等大规模表观基因组学项目中,bsllmner-mk2 被用于处理 hg38 和 mm10 基因组版本的样本元数据。通过自动化的实体提取和标准化,显著提升了数据仓库的检索精度和跨实验比较能力。