Zing 论坛

正文

bsllmner-mk2:用 LLM 从生物样本记录中提取命名实体并映射到本体术语

日本 DBCLS 团队开源的生物医学 NLP 工具,结合 Ollama 本地大模型,实现从 BioSample 元数据中提取细胞系、组织、生物体等实体,并自动映射到 Cellosaurus、UBERON 等标准本体。

LLMNERBioSample生物医学本体映射Ollama细胞系DBCLS生物信息学
发布时间 2026/04/23 13:15最近活动 2026/04/23 13:19预计阅读 3 分钟
bsllmner-mk2:用 LLM 从生物样本记录中提取命名实体并映射到本体术语
1

章节 01

导读 / 主楼:bsllmner-mk2:用 LLM 从生物样本记录中提取命名实体并映射到本体术语

日本 DBCLS 团队开源的生物医学 NLP 工具,结合 Ollama 本地大模型,实现从 BioSample 元数据中提取细胞系、组织、生物体等实体,并自动映射到 Cellosaurus、UBERON 等标准本体。

2

章节 02

项目概述

在生物医学研究中,海量的样本元数据往往以非结构化文本形式存在,这给数据整合与分析带来了巨大挑战。bsllmner-mk2 是由日本数据库中心生命科学(DBCLS)开发的开源工具,专门用于从 BioSample 数据库记录中提取生物学命名实体,并利用大型语言模型(LLM)将其映射到标准化的本体术语。

该项目基于原始版本 sh-ikeda/bsllmner 进行重构升级,采用现代化的 Python 技术栈,提供了更灵活的部署方式和更完善的文档支持。相关研究成果已发表于预印本平台 bioRxiv。

3

章节 03

核心功能解析

bsllmner-mk2 提供两种主要工作模式,分别对应命名实体识别流程中的不同环节:

4

章节 04

Extract 模式:精准提取生物实体

Extract 模式专注于**命名实体识别(NER)**任务。它能够从 BioSample 的元数据描述中自动识别并提取以下类型的生物学实体:

  • 细胞系(Cell Line):如 HeLa、HEK293 等常用实验细胞系
  • 组织类型(Tissue):如肝脏、心脏、脑组织等
  • 生物体(Organism):包括物种名称和分类信息
  • 其他相关实体:如疾病状态、发育阶段等

该模式利用 LLM 强大的语义理解能力,能够处理描述方式多样、格式不统一的自由文本,克服了传统基于规则或词典的方法在处理复杂描述时的局限性。

5

章节 05

Select 模式:智能映射到标准本体

Select 模式在 Extract 模式的基础上进一步扩展,将提取出的实体术语映射到权威的本体数据库条目:

  • Cellosaurus:细胞系知识库,提供标准化的细胞系标识
  • UBERON:解剖学本体,涵盖多物种的解剖结构术语
  • Cell Ontology(CL):细胞类型本体,描述细胞类型及其特征

这种映射机制确保了提取结果的可追溯性和互操作性,使得来自不同数据源的信息能够在统一的语义框架下进行整合分析。

6

章节 06

基于 Ollama 的本地推理

bsllmner-mk2 使用 Ollama 作为 LLM 推理服务器,这一设计带来了显著优势:

  1. 数据隐私保护:所有处理都在本地完成,敏感的研究数据不会上传到云端
  2. 模型选择灵活:支持 llama3.1:70b 等多种开源模型,可根据硬件条件和精度需求灵活选择
  3. 部署简便:通过 Docker Compose 一键启动,无需复杂的机器学习环境配置
7

章节 07

快速启动示例

# 启动服务
docker compose up -d --build

# 运行提取任务
docker compose exec app bsllmner2_extract \
  --bs-entries tests/data/example_biosample.json \
  --model llama3.1:70b --debug

项目还支持通过 uv 进行原生 Python 部署,以及针对 GPU 环境的配置优化,满足不同场景下的性能需求。

8

章节 08

大规模组学数据整合

在 ChIP-Atlas 等大规模表观基因组学项目中,bsllmner-mk2 被用于处理 hg38 和 mm10 基因组版本的样本元数据。通过自动化的实体提取和标准化,显著提升了数据仓库的检索精度和跨实验比较能力。