章节 01
导读 / 主楼:bsllmner-mk2:用LLM实现生物样本数据的智能实体抽取与本体映射
bsllmner-mk2是由日本DBCLS开发的生物信息学工具,利用本地部署的大语言模型(通过Ollama)从NCBI BioSample数据库的元数据中提取细胞系、组织、疾病等生物命名实体,并自动映射到Cellosaurus、Cell Ontology、MONDO等标准化本体术语,解决生物数据标准化难题。
正文
bsllmner-mk2是由日本DBCLS开发的生物信息学工具,利用本地部署的大语言模型(通过Ollama)从NCBI BioSample数据库的元数据中提取细胞系、组织、疾病等生物命名实体,并自动映射到Cellosaurus、Cell Ontology、MONDO等标准化本体术语,解决生物数据标准化难题。
章节 01
bsllmner-mk2是由日本DBCLS开发的生物信息学工具,利用本地部署的大语言模型(通过Ollama)从NCBI BioSample数据库的元数据中提取细胞系、组织、疾病等生物命名实体,并自动映射到Cellosaurus、Cell Ontology、MONDO等标准化本体术语,解决生物数据标准化难题。
章节 02
章节 03
在生物信息学研究中,BioSample数据库汇集了来自全球研究机构的数百万样本元数据。然而,这些元数据通常以自由文本形式存在,描述方式千差万别——例如同一个细胞系可能有"HeLa"、"Hela cells"、"human cervical carcinoma cell line"等多种写法。这种术语不一致严重阻碍了数据的整合、搜索和再利用。
传统的命名实体识别(NER)方法需要大量标注数据和领域专家知识,难以适应生物术语的快速演变。bsllmner-mk2创新性地利用大语言模型的语义理解能力,实现了从自由文本到标准化本体术语的智能映射。
章节 04
bsllmner-mk2是由日本Database Center for Life Science(DBCLS)开发的命令行工具,专门用于处理NCBI BioSample数据库的元数据记录。该工具通过本地部署的大语言模型(通过Ollama接口)执行命名实体识别,并支持将识别结果映射到多个生物医学本体。
章节 05
工具提供两种互补的工作模式:
执行命名实体识别(NER),从BioSample元数据中提取结构化实体并输出JSON格式结果。这是基础的实体抽取阶段,识别样本描述中的关键信息如细胞系、组织类型、疾病状态等。
在NER的基础上,对每个提取的实体值搜索多个本体数据库,然后让LLM选择最合适的本体术语。这是核心的标准化阶段,解决同义词和术语变体的映射问题。
章节 06
Select模式支持将实体映射到以下权威生物医学本体:
| 本体 | 全称 | 覆盖领域 |
|---|---|---|
| Cellosaurus | Cellosaurus | 细胞系 |
| Cell Ontology (CL) | Cell Ontology | 细胞类型 |
| UBERON | Uber Anatomy Ontology | 解剖结构 |
| MONDO | Monarch Disease Ontology | 疾病 |
| ChEBI | Chemical Entities of Biological Interest | 化学物质 |
| NCBI Gene | NCBI Gene Database | 基因 |
| Plant Ontology (PO) | Plant Ontology | 植物结构/发育阶段 |
这种多本体支持使工具能够处理不同类型的生物样本,从人类细胞系到植物组织再到模式生物。
章节 07
工具通过Ollama接口与本地部署的大语言模型交互,支持多种开源模型如Llama 3.1等。本地部署的优势包括:
章节 08
项目提供完整的Docker Compose配置,简化部署流程:
docker compose up -d --build
docker compose exec app bsllmner2_extract \\n --bs-entries tests/data/example_biosample.json \\n --model llama3.1:70b --debug
容器化部署确保了环境一致性,避免了"在我机器上能运行"的问题。