Zing 论坛

正文

bsllmner-mk2:用LLM实现生物样本数据的智能实体抽取与本体映射

bsllmner-mk2是由日本DBCLS开发的生物信息学工具,利用本地部署的大语言模型(通过Ollama)从NCBI BioSample数据库的元数据中提取细胞系、组织、疾病等生物命名实体,并自动映射到Cellosaurus、Cell Ontology、MONDO等标准化本体术语,解决生物数据标准化难题。

生物信息学命名实体识别本体映射OllamaLLMBioSample细胞系数据标准化DBCLS开源工具
发布时间 2026/05/26 18:11最近活动 2026/05/26 18:25预计阅读 4 分钟
bsllmner-mk2:用LLM实现生物样本数据的智能实体抽取与本体映射
1

章节 01

导读 / 主楼:bsllmner-mk2:用LLM实现生物样本数据的智能实体抽取与本体映射

bsllmner-mk2是由日本DBCLS开发的生物信息学工具,利用本地部署的大语言模型(通过Ollama)从NCBI BioSample数据库的元数据中提取细胞系、组织、疾病等生物命名实体,并自动映射到Cellosaurus、Cell Ontology、MONDO等标准化本体术语,解决生物数据标准化难题。

3

章节 03

背景:生物数据标准化的困境

在生物信息学研究中,BioSample数据库汇集了来自全球研究机构的数百万样本元数据。然而,这些元数据通常以自由文本形式存在,描述方式千差万别——例如同一个细胞系可能有"HeLa"、"Hela cells"、"human cervical carcinoma cell line"等多种写法。这种术语不一致严重阻碍了数据的整合、搜索和再利用。

传统的命名实体识别(NER)方法需要大量标注数据和领域专家知识,难以适应生物术语的快速演变。bsllmner-mk2创新性地利用大语言模型的语义理解能力,实现了从自由文本到标准化本体术语的智能映射。

4

章节 04

项目概述

bsllmner-mk2是由日本Database Center for Life Science(DBCLS)开发的命令行工具,专门用于处理NCBI BioSample数据库的元数据记录。该工具通过本地部署的大语言模型(通过Ollama接口)执行命名实体识别,并支持将识别结果映射到多个生物医学本体。

5

章节 05

两种工作模式

工具提供两种互补的工作模式:

Extract模式(bsllmner2_extract)

执行命名实体识别(NER),从BioSample元数据中提取结构化实体并输出JSON格式结果。这是基础的实体抽取阶段,识别样本描述中的关键信息如细胞系、组织类型、疾病状态等。

Select模式(bsllmner2_select)

在NER的基础上,对每个提取的实体值搜索多个本体数据库,然后让LLM选择最合适的本体术语。这是核心的标准化阶段,解决同义词和术语变体的映射问题。

6

章节 06

支持的本体数据库

Select模式支持将实体映射到以下权威生物医学本体:

本体 全称 覆盖领域
Cellosaurus Cellosaurus 细胞系
Cell Ontology (CL) Cell Ontology 细胞类型
UBERON Uber Anatomy Ontology 解剖结构
MONDO Monarch Disease Ontology 疾病
ChEBI Chemical Entities of Biological Interest 化学物质
NCBI Gene NCBI Gene Database 基因
Plant Ontology (PO) Plant Ontology 植物结构/发育阶段

这种多本体支持使工具能够处理不同类型的生物样本,从人类细胞系到植物组织再到模式生物。

7

章节 07

本地LLM推理

工具通过Ollama接口与本地部署的大语言模型交互,支持多种开源模型如Llama 3.1等。本地部署的优势包括:

  • 数据隐私:敏感的生物样本元数据不会离开本地环境
  • 成本效益:无需支付API调用费用,适合大规模批处理
  • 可定制性:可以选择最适合特定生物领域的模型
  • 离线运行:不依赖外部网络连接
8

章节 08

Docker化部署

项目提供完整的Docker Compose配置,简化部署流程:

docker compose up -d --build
docker compose exec app bsllmner2_extract \\n  --bs-entries tests/data/example_biosample.json \\n  --model llama3.1:70b --debug

容器化部署确保了环境一致性,避免了"在我机器上能运行"的问题。