# BioTool：面向生物医学领域的大语言模型工具调用数据集

> ACL 2026 接收论文，包含7040条高质量生物医学工具调用数据，覆盖127个NCBI/UniProt/Ensembl工具，并开源微调后的Qwen3-4B基线模型。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-06-04T07:13:03.000Z
- 最近活动: 2026-06-04T07:18:25.053Z
- 热度: 159.9
- 关键词: 生物医学, 大语言模型, 工具调用, 数据集, ACL 2026, NCBI, UniProt, Ensembl
- 页面链接: https://www.zingnex.cn/forum/thread/biotool
- Canonical: https://www.zingnex.cn/forum/thread/biotool
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**: gxx27
- **来源平台**: GitHub
- **原始标题**: BioTool: A Comprehensive Tool-Calling Dataset for Enhancing Biomedical Capabilities of Large Language Models
- **原始链接**: https://github.com/gxx27/BioTool
- **论文链接**: https://arxiv.org/abs/2605.05758
- **发布时间**: 2026年6月
- **会议**: ACL 2026

---

## 研究背景

大语言模型（LLM）在通用领域展现出强大的工具调用能力，但在生物医学等专业领域的应用仍面临挑战。生物医学研究依赖大量专业数据库，如NCBI、UniProt和Ensembl，这些数据库提供丰富的API接口用于检索基因、蛋白质、疾病等信息。然而，现有LLM缺乏针对这些专业工具的训练数据，导致在生物医学场景下的工具调用准确率和可靠性不足。

BioTool项目应运而生，旨在填补这一空白，为生物医学领域提供首个大规模、高质量的工具调用数据集。

---

## 数据集概览

BioTool数据集包含**7,040条精心标注的（查询、函数调用、观察结果）三元组**，覆盖**127个生物医学工具**，横跨三大核心数据库：

### 覆盖的数据库与工具

| 数据库 | 工具数量 | 主要功能 |
|--------|----------|----------|
| **NCBI** | 多个 | E-utilities（einfo、esearch、esummary、efetch等）、BLAST序列比对 |
| **UniProt** | 14+ | 蛋白质序列查询、疾病关联、亚细胞定位、文献引用等 |
| **Ensembl** | 16+ | 基因组比对、变异注释、表型注释、比较基因组学等 |

### 数据格式示例

每条记录包含用户查询、对应的函数调用参数以及API返回的观察结果：

```json
{
  "user_query": "Which UniProt protein entries correspond to the TP53 gene?",
  "function_calling": {
    "name": "stream_uniprotkb",
    "arguments": {
      "query": "gene:TP53",
      "fields": "cc_ptm,sequence",
      "sort": "gene desc"
    }
  },
  "observation": {
    "total_results": 25,
    "examples": [...]
  },
  "database": "uniprot",
  "tool": "uniprotkb"
}
```

---

## 开源资源

项目提供了完整的开源工具链：

### 1. 数据集（Hugging Face）
- **完整数据集**: `gxx27/BioTool`
- **训练集**: 5,632条（ShareGPT格式）
- **测试集**: 1,408条（ShareGPT格式）
- **工具定义**: 127个工具的JSON Schema定义
- **函数映射**: 函数名到数据库/工具的映射表

### 2. Python工具封装
项目为全部127个工具提供了可直接使用的Python客户端封装，研究人员无需自行处理复杂的API鉴权和参数构造。

### 3. 评估体系
BioTool引入了多维度的评估指标：

- **Exact Match (EM)**: 预测调用与标准答案完全匹配的百分比
- **API Success (AS)**: 调用成功返回非错误响应的百分比
- **BioTool Score**: 基于MedCPT-Query-Encoder嵌入空间余弦相似度的语义相似度评分

评估结果按数据库（NCBI/UniProt/Ensembl）和整体分别统计，便于针对性分析模型在不同数据源上的表现差异。

### 4. 微调基线模型
项目开源了基于Qwen3-4B微调的模型 `BioTool-finetuned-Qwen3-4B`，这是论文中最强的开源基线模型，可直接用于复现论文结果或作为进一步研究的起点。

---

## 技术亮点

### 专业领域深度覆盖
与通用工具调用数据集不同，BioTool专注于生物医学这一高度专业化的领域。每个工具调用都经过精心设计，确保能够获取足够的信息来回答实际的生物医学问题。

### 标准化数据格式
数据集采用业界标准的函数调用格式，同时提供LLaMA-Factory兼容的ShareGPT格式，可直接用于主流微调框架。

### 可复现的评估流程
项目提供了完整的评估流水线，包括指标计算、数据库级别的细分统计，以及基于MedCPT的语义相似度评估，确保研究结果的可靠性和可比性。

---

## 快速开始

```bash
# 创建环境
conda create -n biotool python=3.11
conda activate biotool

# 克隆仓库
git clone https://github.com/gxx27/BioTool.git
cd BioTool
pip install -r requirements.txt

# 下载数据集
huggingface-cli download gxx27/BioTool --repo-type dataset --local-dir data
```

使用Hugging Face datasets库直接加载：

```python
from datasets import load_dataset
ds = load_dataset("gxx27/BioTool")
print(ds)
```

---

## 实用价值与意义

BioTool为生物医学AI研究提供了重要的基础设施：

1. **降低领域适配门槛**: 研究人员可直接使用数据集微调通用LLM，快速获得具备生物医学工具调用能力的专用模型

2. **标准化评估基准**: 提供了公平比较不同模型在生物医学工具调用任务上表现的标准化测试平台

3. **促进跨领域研究**: 连接了自然语言处理与生物医学信息学两个领域，为跨学科合作提供数据基础

4. **开源生态建设**: 完整的数据集、代码和预训练模型降低了复现门槛，有助于形成活跃的研究社区

---

## 总结

BioTool是生物医学大语言模型工具调用领域的重要贡献。通过提供大规模、高质量的数据集和完整的开源工具链，该项目为提升LLM在生物医学专业场景下的实用能力奠定了坚实基础。对于从事医疗AI、生物信息学或工具学习（Tool Learning）研究的研究人员和开发者而言，BioTool是一个值得关注和利用的宝贵资源。