Zing 论坛

正文

BioTool:面向生物医学领域的大语言模型工具调用数据集

ACL 2026 接收论文,包含7040条高质量生物医学工具调用数据,覆盖127个NCBI/UniProt/Ensembl工具,并开源微调后的Qwen3-4B基线模型。

生物医学大语言模型工具调用数据集ACL 2026NCBIUniProtEnsembl
发布时间 2026/06/04 15:13最近活动 2026/06/04 15:18预计阅读 3 分钟
BioTool:面向生物医学领域的大语言模型工具调用数据集
1

章节 01

导读 / 主楼:BioTool:面向生物医学领域的大语言模型工具调用数据集

ACL 2026 接收论文,包含7040条高质量生物医学工具调用数据,覆盖127个NCBI/UniProt/Ensembl工具,并开源微调后的Qwen3-4B基线模型。

2

章节 02

原作者与来源


3

章节 03

研究背景

大语言模型(LLM)在通用领域展现出强大的工具调用能力,但在生物医学等专业领域的应用仍面临挑战。生物医学研究依赖大量专业数据库,如NCBI、UniProt和Ensembl,这些数据库提供丰富的API接口用于检索基因、蛋白质、疾病等信息。然而,现有LLM缺乏针对这些专业工具的训练数据,导致在生物医学场景下的工具调用准确率和可靠性不足。

BioTool项目应运而生,旨在填补这一空白,为生物医学领域提供首个大规模、高质量的工具调用数据集。


4

章节 04

数据集概览

BioTool数据集包含7,040条精心标注的(查询、函数调用、观察结果)三元组,覆盖127个生物医学工具,横跨三大核心数据库:

5

章节 05

覆盖的数据库与工具

数据库 工具数量 主要功能
NCBI 多个 E-utilities(einfo、esearch、esummary、efetch等)、BLAST序列比对
UniProt 14+ 蛋白质序列查询、疾病关联、亚细胞定位、文献引用等
Ensembl 16+ 基因组比对、变异注释、表型注释、比较基因组学等
6

章节 06

数据格式示例

每条记录包含用户查询、对应的函数调用参数以及API返回的观察结果:

{
  "user_query": "Which UniProt protein entries correspond to the TP53 gene?",
  "function_calling": {
    "name": "stream_uniprotkb",
    "arguments": {
      "query": "gene:TP53",
      "fields": "cc_ptm,sequence",
      "sort": "gene desc"
    }
  },
  "observation": {
    "total_results": 25,
    "examples": [...]
  },
  "database": "uniprot",
  "tool": "uniprotkb"
}

7

章节 07

开源资源

项目提供了完整的开源工具链:

8

章节 08

1. 数据集(Hugging Face)

  • 完整数据集: gxx27/BioTool
  • 训练集: 5,632条(ShareGPT格式)
  • 测试集: 1,408条(ShareGPT格式)
  • 工具定义: 127个工具的JSON Schema定义
  • 函数映射: 函数名到数据库/工具的映射表