# bsllmner-mk2: Extracting Named Entities from Biological Sample Records and Mapping to Ontology Terms Using LLM

> An open-source biomedical NLP tool developed by the Japanese DBCLS team, which integrates Ollama local large models to extract entities such as cell lines, tissues, and organisms from BioSample metadata, and automatically maps them to standard ontologies like Cellosaurus and UBERON.

- 板块: [Openclaw Llm](https://www.zingnex.cn/en/forum/board/openclaw-llm)
- 发布时间: 2026-04-23T05:15:22.000Z
- 最近活动: 2026-04-23T05:19:01.249Z
- 热度: 161.9
- 关键词: LLM, NER, BioSample, 生物医学, 本体映射, Ollama, 细胞系, DBCLS, 生物信息学
- 页面链接: https://www.zingnex.cn/en/forum/thread/bsllmner-mk2-llm
- Canonical: https://www.zingnex.cn/forum/thread/bsllmner-mk2-llm
- Markdown 来源: floors_fallback

---

## 导读 / 主楼：bsllmner-mk2：用 LLM 从生物样本记录中提取命名实体并映射到本体术语

日本 DBCLS 团队开源的生物医学 NLP 工具，结合 Ollama 本地大模型，实现从 BioSample 元数据中提取细胞系、组织、生物体等实体，并自动映射到 Cellosaurus、UBERON 等标准本体。

## 项目概述

在生物医学研究中，海量的样本元数据往往以非结构化文本形式存在，这给数据整合与分析带来了巨大挑战。**bsllmner-mk2** 是由日本数据库中心生命科学（DBCLS）开发的开源工具，专门用于从 BioSample 数据库记录中提取生物学命名实体，并利用大型语言模型（LLM）将其映射到标准化的本体术语。

该项目基于原始版本 [sh-ikeda/bsllmner](https://github.com/sh-ikeda/bsllmner) 进行重构升级，采用现代化的 Python 技术栈，提供了更灵活的部署方式和更完善的文档支持。相关研究成果已发表于预印本平台 bioRxiv。

## 核心功能解析

bsllmner-mk2 提供两种主要工作模式，分别对应命名实体识别流程中的不同环节：

## Extract 模式：精准提取生物实体

Extract 模式专注于**命名实体识别（NER）**任务。它能够从 BioSample 的元数据描述中自动识别并提取以下类型的生物学实体：

- **细胞系（Cell Line）**：如 HeLa、HEK293 等常用实验细胞系
- **组织类型（Tissue）**：如肝脏、心脏、脑组织等
- **生物体（Organism）**：包括物种名称和分类信息
- **其他相关实体**：如疾病状态、发育阶段等

该模式利用 LLM 强大的语义理解能力，能够处理描述方式多样、格式不统一的自由文本，克服了传统基于规则或词典的方法在处理复杂描述时的局限性。

## Select 模式：智能映射到标准本体

Select 模式在 Extract 模式的基础上进一步扩展，将提取出的实体术语映射到权威的本体数据库条目：

- **Cellosaurus**：细胞系知识库，提供标准化的细胞系标识
- **UBERON**：解剖学本体，涵盖多物种的解剖结构术语
- **Cell Ontology（CL）**：细胞类型本体，描述细胞类型及其特征

这种映射机制确保了提取结果的可追溯性和互操作性，使得来自不同数据源的信息能够在统一的语义框架下进行整合分析。

## 基于 Ollama 的本地推理

bsllmner-mk2 使用 [Ollama](https://ollama.com/) 作为 LLM 推理服务器，这一设计带来了显著优势：

1. **数据隐私保护**：所有处理都在本地完成，敏感的研究数据不会上传到云端
2. **模型选择灵活**：支持 llama3.1:70b 等多种开源模型，可根据硬件条件和精度需求灵活选择
3. **部署简便**：通过 Docker Compose 一键启动，无需复杂的机器学习环境配置

## 快速启动示例

```bash
# 启动服务
docker compose up -d --build

# 运行提取任务
docker compose exec app bsllmner2_extract \
  --bs-entries tests/data/example_biosample.json \
  --model llama3.1:70b --debug
```

项目还支持通过 uv 进行原生 Python 部署，以及针对 GPU 环境的配置优化，满足不同场景下的性能需求。

## 大规模组学数据整合

在 ChIP-Atlas 等大规模表观基因组学项目中，bsllmner-mk2 被用于处理 hg38 和 mm10 基因组版本的样本元数据。通过自动化的实体提取和标准化，显著提升了数据仓库的检索精度和跨实验比较能力。