正文

DTI-LLM：基于大语言模型的药物-靶点相互作用预测框架

本文介绍 DTI-LLM，一个利用大语言模型推理能力预测药物与靶点蛋白质相互作用的开源项目。该项目通过整合蛋白质-蛋白质相互作用分数、序列相似性和嵌入相似性等多维特征，结合直接预测、思维链和合成推理三种提示策略，为药物发现领域提供了一种可解释的人工智能解决方案。

药物发现大语言模型DTI预测生物信息学机器学习LoRA微调可解释AI蛋白质相互作用

发布时间 2026/06/12 15:37最近活动 2026/06/12 15:50预计阅读 3 分钟

章节 01

导读：DTI-LLM开源项目核心介绍

DTI-LLM是由NimishaGhosh开发的开源项目（GitHub链接：https://github.com/NimishaGhosh/DTI-LLM，发布于2026年6月），旨在利用大语言模型（LLM）的推理能力预测药物-靶点相互作用（DTI）。该项目整合蛋白质-蛋白质相互作用分数、序列相似性、嵌入相似性等多维特征，结合直接预测、思维链（CoT）、合成推理三种提示策略，为药物发现领域提供可解释的人工智能解决方案，助力加速候选药物筛选、降低研发成本。

章节 02

项目背景与核心挑战

药物发现过程漫长且昂贵，传统方法需数年时间和数十亿美元投入。DTI预测作为计算药物发现核心任务，可显著加速候选药物筛选。但DTI预测面临多重挑战：药物分子与蛋白质结构复杂导致传统计算成本高；生物系统异质性使相同药物在不同蛋白质上结合特性差异大；数据稀缺性和类别不平衡制约模型性能。近年来LLM在NLP领域的突破，为解决DTI预测问题提供新思路，DTI-LLM正是LLM在生物医学领域的应用尝试。

章节 03

技术架构：多维特征与提示策略

DTI-LLM的核心创新在于特征工程与提示策略：

多维特征整合：
- 蛋白质-蛋白质相互作用分数（PPI Score）：反映目标蛋白质与已知药物靶点的相互作用强度，利用"guilt-by-association"原理；
- 序列相似性：借鉴已知药物-靶点对先验知识，序列相似蛋白质功能与结构更相似；
- 嵌入相似性：通过预训练生物语言模型生成嵌入，捕捉高层语义信息，包括蛋白质间、药物与蛋白质间的嵌入相似性。
三种提示策略：
- 直接预测：接收特征直接输出二元结果，高效适用于快速筛选；
- 思维链（CoT）：逐步推理展示逻辑链条，提升可解释性与准确性；
- 合成推理：训练阶段自动生成自然语言推理文本作为监督信号，教会模型像专家一样解释预测依据。

章节 04

模型实现细节

模型实现细节：

量化与LoRA微调：采用4-bit量化降低显存占用，通过LoRA技术进行参数高效微调，仅训练低秩适配器参数，使消费级GPU可微调大型LLM；
多模型支持：代码架构兼容Qwen、Mistral、LLaMA系列等主流开源LLM，通过统一配置接口方便切换模型；
灵活特征模式：提供六种特征模式（all、ppi_only、seq_only、no_emb、no_ppi、no_seq），支持消融实验评估不同特征子集的贡献。

章节 05

实际应用工作流程

DTI-LLM的使用流程简洁：

数据准备：需准备包含PPI分数、序列相似性、嵌入相似性等预计算特征的Parquet文件（train_with_emb.parquet和test_with_emb.parquet）；
参数配置：通过命令行指定基础模型路径、输出目录、提示风格、特征模式，支持多随机种子实验确保结果稳健；
评估：提供evaluate.py和evaluate_SR.py脚本，计算准确率、精确率、召回率、F1分数等指标，支持合成推理质量评估。

章节 06

技术意义与潜在影响

DTI-LLM的技术意义与潜在影响：

可解释性提升：通过思维链和合成推理提供自然语言解释，帮助研究者理解预测依据；
数据效率：利用预训练LLM知识与特征工程，在有限标注数据下实现较好性能；
模块化与可扩展性：代码结构清晰，方便替换特征提取器、尝试新提示策略或整合额外生物数据源；
开源生态贡献：作为开源项目提供可复现基准，推动领域集体进步。

章节 07

局限性与未来方向

DTI-LLM当前局限性与未来方向：

局限性：README文档简略，缺乏详细性能基准、数据集描述及预训练模型下载链接；仅提供代码实现，无预训练权重或大规模实验结果，对计算资源有限的研究者存在门槛；
未来方向：整合三维结构信息、基因表达数据等更多生物特征；探索更大规模基础模型；开发交互式可视化工具展示推理过程；与实验验证流程紧密集成。

章节 08