# BioTool：面向生物医学领域的大模型工具调用数据集

> ACL 2026 接收论文 BioTool 开源发布，包含7040条生物医学工具调用数据，覆盖127个生物医学数据库工具，显著提升大语言模型在生物医学领域的问答能力。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-04T07:13:03.000Z
- 最近活动: 2026-06-04T07:24:10.590Z
- 热度: 163.8
- 关键词: BioTool, 生物医学, 工具调用, 大语言模型, ACL 2026, NCBI, UniProt, Ensembl, 数据集, 函数调用
- 页面链接: https://www.zingnex.cn/forum/thread/biotool-352ceca4
- Canonical: https://www.zingnex.cn/forum/thread/biotool-352ceca4
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：gxx27
- 来源平台：github
- 原始标题：BioTool: A Comprehensive Tool-Calling Dataset for Enhancing Biomedical Capabilities of Large Language Models
- 原始链接：https://github.com/gxx27/BioTool
- 来源发布时间/更新时间：2026-06-04T07:13:03Z

## 原作者与来源\n\n- **原作者/维护者**: gxx27\n- **来源平台**: GitHub\n- **原始标题**: BioTool: A Comprehensive Tool-Calling Dataset for Enhancing Biomedical Capabilities of Large Language Models\n- **原始链接**: https://github.com/gxx27/BioTool\n- **论文链接**: https://arxiv.org/abs/2605.05758\n- **发布时间**: 2026年6月4日\n- **会议**: ACL 2026\n\n---\n\n## 背景：生物医学领域的大模型挑战\n\n大语言模型（LLM）在通用领域展现出强大的推理和生成能力，但在专业领域——尤其是生物医学领域——仍面临显著挑战。生物医学知识高度专业化，涉及海量的基因、蛋白质、疾病和药物信息，这些信息分布在多个权威数据库中，如 NCBI、UniProt 和 Ensembl。\n\n传统的 LLM 训练数据虽然包含部分生物医学文本，但缺乏与实时数据库交互的能力，导致模型在回答具体生物医学问题时可能出现"幻觉"或过时信息。如何让大模型能够准确调用专业的生物医学工具，成为提升其在该领域实用性的关键问题。\n\n---\n\n## BioTool 数据集概述\n\nBioTool 是一个大规模、高质量的工具调用数据集，专门面向生物医学领域设计。该数据集由研究团队精心构建，旨在训练大语言模型学会调用真实的生物医学数据库 API，从而回答复杂的生物医学问题。\n\n### 数据集规模与构成\n\nBioTool 数据集包含以下核心内容：\n\n- **7040 条 curated 数据**：每条数据包含 (query, function_call, observation) 三元组\n- **127 个生物医学工具**：覆盖三大权威数据库\n  - **NCBI**：E-utilities 系列工具（einfo、esearch、esummary、efetch、elink、ecitmatch）及 BLAST\n  - **UniProt**：uniprotkb、uniref、uniparc、proteomes、taxonomy、keywords 等 14 个子工具\n  - **Ensembl**：lookup、sequence、overlap、vep、comparative_genomics 等 16 个子工具\n- **标准数据格式**：采用函数调用（function calling）标准格式，便于直接用于模型训练\n- **训练/测试划分**：提供 LLaMA-Factory ShareGPT 格式的训练集（5632条）和测试集（1408条）\n\n### 数据示例\n\n每条数据记录遵循标准的工具调用格式，例如：\n\n```json\n{\n  \"user_query\": \"Which UniProt protein entries correspond to the TP53 gene?\",\n  \"function_calling\": {\n    \"name\": \"stream_uniprotkb\",\n    \"arguments\": {\"query\": \"gene:TP53\", \"fields\": \"cc_ptm,sequence\"}\n  },\n  \"observation\": {\n    \"total_results\": 25,\n    \"examples\": [...]\n  },\n  \"database\": \"uniprot\",\n  \"tool\": \"uniprotkb\"\n}\n```\n\n这种结构清晰地展示了用户问题、对应的工具调用以及工具返回的观察结果之间的关系。\n\n---\n\n## 评估体系与基准模型\n\nBioTool 项目不仅提供数据集，还建立了一套完整的评估体系，用于衡量模型在生物医学工具调用任务上的表现。\n\n### 三项核心评估指标\n\n1. **Exact Match (EM)**：预测的工具调用（包括函数名和参数）与标准答案完全匹配的百分比\n2. **API Success (AS)**：预测调用成功返回非错误响应的比例（包括完全匹配和部分正确）\n3. **BioTool Score**：综合评分，完全匹配得 1.0，否则基于 MedCPT-Query-Encoder 嵌入空间的余弦相似度计算得分\n\n### 开源微调模型\n\n项目团队基于 Qwen3-4B 模型进行微调，发布了 **BioTool-finetuned-Qwen3-4B**，这是论文中报告的最强开源基线模型。用户可以直接从 Hugging Face 下载使用：\n\n```bash\nhuggingface-cli download gxx27/BioTool-finetuned-Qwen3-4B \\\
    --local-dir checkpoints/BioTool-Qwen3-4B\n```\n\n---\n\n## 技术实现与使用方式\n\nBioTool 项目提供了完整的工具封装和评估流程，方便研究者和开发者复现和使用。\n\n### Python 工具封装\n\n项目为全部 127 个工具提供了 Python 封装，用户可以直接调用：\n\n```python\nfrom ensembl.lookup.api import lookup_by_symbol\nresult = lookup_by_symbol(species=\"human\", symbol=\"BRCA1\")\n```\n\n### 评估流程\n\n评估脚本支持多种模型：\n- **闭源模型**：通过 OpenRouter 调用 GPT-5.1、Claude、Gemini 等\n- **开源模型**：基于 LLaMA-Factory 进行微调和推理\n\n评估命令示例：\n\n```bash\n# 闭源模型评估\nbash script/run_eval.sh openrouter\n\n# 计算 Exact Match 和 API Success\nbash script/run_eval.sh evaluate results/predictions.jsonl:analysis/output.json\n\n# 计算 MedCPT 相似度\nbash script/run_eval.sh similarity analysis/output.json\n\n# 输出最终指标\nbash script/run_eval.sh metrics analysis/output.json\n```\n\n---\n\n## 应用场景与实用价值\n\nBioTool 数据集和配套工具的发布，为生物医学 AI 应用开辟了新的可能性：\n\n### 1. 智能生物医学问答\n基于 BioTool 微调的模型可以准确回答涉及基因、蛋白质、疾病关联等专业问题，自动调用权威数据库获取最新信息。\n\n### 2. 研究辅助工具\n生物医学研究人员可以通过自然语言与模型交互，快速查询跨数据库的信息，无需学习复杂的 API 语法。\n\n### 3. 模型能力基准测试\nBioTool 提供了一个标准化的测试平台，用于评估各类大语言模型在生物医学工具调用方面的能力。\n\n### 4. 领域特化模型训练\n该数据集可用于进一步微调其他开源模型，打造专门针对生物医学领域的工具调用专家模型。\n\n---\n\n## 未来发展方向\n\n项目团队在论文中指出了两个重要的未来研究方向：\n\n### 多跳交互扩展\n\n当前 BioTool 主要关注单轮、单跳的工具调用场景，适合相对简单的生物医学问题。下一步的关键是将框架扩展到支持多轮对话和多步工具调用流程，使智能体能够解决更复杂的生物医学任务。\n\n### 从监督微调到强化学习\n\n虽然监督微调（SFT）已经取得了强劲的性能，但未来可以探索强化学习（RL）方法，联合优化工具调用和响应生成。这一方向需要特别处理生物医学数据与基础模型预训练语料之间的分布偏移问题。\n\n---\n\n## 总结\n\nBioTool 是生物医学领域首个大规模工具调用数据集，为大语言模型在专业领域的应用提供了重要基础设施。通过 7040 条精心标注的数据和 127 个真实数据库工具，BioTool 使模型能够学会调用权威生物医学数据库，显著提升了回答专业问题的准确性和可靠性。\n\n该项目的开源发布——包括数据集、评估工具、微调模型和完整文档——将有力推动生物医学 AI 的发展，为研究人员和开发者提供宝贵的资源。