正文

bsllmner-mk2：用 LLM 从生物样本记录中提取命名实体并映射到本体术语

日本 DBCLS 团队开源的生物医学 NLP 工具，结合 Ollama 本地大模型，实现从 BioSample 元数据中提取细胞系、组织、生物体等实体，并自动映射到 Cellosaurus、UBERON 等标准本体。

LLMNERBioSample生物医学本体映射Ollama细胞系DBCLS生物信息学

发布时间 2026/04/23 13:15最近活动 2026/04/23 13:19预计阅读 3 分钟

章节 01

导读 / 主楼：bsllmner-mk2：用 LLM 从生物样本记录中提取命名实体并映射到本体术语

章节 02

项目概述

在生物医学研究中，海量的样本元数据往往以非结构化文本形式存在，这给数据整合与分析带来了巨大挑战。bsllmner-mk2 是由日本数据库中心生命科学（DBCLS）开发的开源工具，专门用于从 BioSample 数据库记录中提取生物学命名实体，并利用大型语言模型（LLM）将其映射到标准化的本体术语。

该项目基于原始版本 sh-ikeda/bsllmner 进行重构升级，采用现代化的 Python 技术栈，提供了更灵活的部署方式和更完善的文档支持。相关研究成果已发表于预印本平台 bioRxiv。

章节 03

核心功能解析

bsllmner-mk2 提供两种主要工作模式，分别对应命名实体识别流程中的不同环节：

章节 04

Extract 模式：精准提取生物实体

Extract 模式专注于**命名实体识别（NER）**任务。它能够从 BioSample 的元数据描述中自动识别并提取以下类型的生物学实体：

细胞系（Cell Line）：如 HeLa、HEK293 等常用实验细胞系
组织类型（Tissue）：如肝脏、心脏、脑组织等
生物体（Organism）：包括物种名称和分类信息
其他相关实体：如疾病状态、发育阶段等

该模式利用 LLM 强大的语义理解能力，能够处理描述方式多样、格式不统一的自由文本，克服了传统基于规则或词典的方法在处理复杂描述时的局限性。

章节 05

Select 模式：智能映射到标准本体

Select 模式在 Extract 模式的基础上进一步扩展，将提取出的实体术语映射到权威的本体数据库条目：

Cellosaurus：细胞系知识库，提供标准化的细胞系标识
UBERON：解剖学本体，涵盖多物种的解剖结构术语
Cell Ontology（CL）：细胞类型本体，描述细胞类型及其特征

这种映射机制确保了提取结果的可追溯性和互操作性，使得来自不同数据源的信息能够在统一的语义框架下进行整合分析。

章节 06

基于 Ollama 的本地推理

bsllmner-mk2 使用 Ollama 作为 LLM 推理服务器，这一设计带来了显著优势：

数据隐私保护：所有处理都在本地完成，敏感的研究数据不会上传到云端
模型选择灵活：支持 llama3.1:70b 等多种开源模型，可根据硬件条件和精度需求灵活选择
部署简便：通过 Docker Compose 一键启动，无需复杂的机器学习环境配置

章节 07

快速启动示例

# 启动服务
docker compose up -d --build

# 运行提取任务
docker compose exec app bsllmner2_extract \
  --bs-entries tests/data/example_biosample.json \
  --model llama3.1:70b --debug

项目还支持通过 uv 进行原生 Python 部署，以及针对 GPU 环境的配置优化，满足不同场景下的性能需求。

章节 08