章节 01
导读 / 主楼:BioTool:面向生物医学领域的大语言模型工具调用数据集
ACL 2026 接收论文,包含7040条高质量生物医学工具调用数据,覆盖127个NCBI/UniProt/Ensembl工具,并开源微调后的Qwen3-4B基线模型。
正文
ACL 2026 接收论文,包含7040条高质量生物医学工具调用数据,覆盖127个NCBI/UniProt/Ensembl工具,并开源微调后的Qwen3-4B基线模型。
章节 01
ACL 2026 接收论文,包含7040条高质量生物医学工具调用数据,覆盖127个NCBI/UniProt/Ensembl工具,并开源微调后的Qwen3-4B基线模型。
章节 02
章节 03
大语言模型(LLM)在通用领域展现出强大的工具调用能力,但在生物医学等专业领域的应用仍面临挑战。生物医学研究依赖大量专业数据库,如NCBI、UniProt和Ensembl,这些数据库提供丰富的API接口用于检索基因、蛋白质、疾病等信息。然而,现有LLM缺乏针对这些专业工具的训练数据,导致在生物医学场景下的工具调用准确率和可靠性不足。
BioTool项目应运而生,旨在填补这一空白,为生物医学领域提供首个大规模、高质量的工具调用数据集。
章节 04
BioTool数据集包含7,040条精心标注的(查询、函数调用、观察结果)三元组,覆盖127个生物医学工具,横跨三大核心数据库:
章节 05
| 数据库 | 工具数量 | 主要功能 |
|---|---|---|
| NCBI | 多个 | E-utilities(einfo、esearch、esummary、efetch等)、BLAST序列比对 |
| UniProt | 14+ | 蛋白质序列查询、疾病关联、亚细胞定位、文献引用等 |
| Ensembl | 16+ | 基因组比对、变异注释、表型注释、比较基因组学等 |
章节 06
每条记录包含用户查询、对应的函数调用参数以及API返回的观察结果:
{
"user_query": "Which UniProt protein entries correspond to the TP53 gene?",
"function_calling": {
"name": "stream_uniprotkb",
"arguments": {
"query": "gene:TP53",
"fields": "cc_ptm,sequence",
"sort": "gene desc"
}
},
"observation": {
"total_results": 25,
"examples": [...]
},
"database": "uniprot",
"tool": "uniprotkb"
}
章节 07
项目提供了完整的开源工具链:
章节 08
gxx27/BioTool