Zing 论坛

正文

PCPpred:基于大语言模型的环肽膜通透性预测工具

PCPpred是一个专门针对环肽药物研发设计的开源工具,利用大语言模型和集成学习技术预测化学修饰肽的膜通透性。该工具支持PAMPA、Caco-2、RRCK和MDCK四种主流渗透性实验模型的预测,并提供从MAP格式到SMILES/HELM的序列转换功能。

环肽膜通透性大语言模型药物发现口服多肽机器学习PAMPACaco-2分子表征计算化学
发布时间 2026/05/08 17:14最近活动 2026/05/08 17:18预计阅读 3 分钟
PCPpred:基于大语言模型的环肽膜通透性预测工具
1

章节 01

【导读】PCPpred:基于大语言模型的环肽膜通透性预测工具核心介绍

PCPpred是印度德里信息技术研究所(IIIT Delhi)Raghava课题组开发的开源工具,专门针对环肽药物研发设计,利用大语言模型和集成学习技术预测化学修饰肽的膜通透性。该工具支持PAMPA、Caco-2、RRCK和MDCK四种主流渗透性实验模型的预测,并提供从MAP格式到SMILES/HELM的序列转换功能,旨在降低口服环肽药物设计门槛,加速相关治疗模态的发展。

2

章节 02

【背景】口服多肽药物研发的瓶颈与环肽的机遇

多肽药物因高特异性和低毒性极具潜力,但口服给药是临床应用瓶颈——分子量较大、极性强导致生物利用度极低。传统线性多肽易被降解,环肽通过环化提高代谢稳定性,但环化不保证膜通透性,化学修饰(如N-甲基化、非天然残基引入)是关键。实验测定膜通透性成本高耗时,故开发准确预测工具具有重要价值。

3

章节 03

【技术架构】PCPpred的多模态特征融合与集成学习策略

多维度分子表征体系

PCPpred整合四类分子表征:

  1. 分子描述符(理化性质如分子量、脂水分配系数)
  2. 分子指纹(如Klekota-Roth指纹捕捉亚结构)
  3. 分子嵌入(预训练语言模型从SMILES学习分布式表征)
  4. 原子级特征(原子类型、杂化状态等细粒度信息)

集成学习预测架构

采用堆叠式集成策略,组合多个基学习器(如LightGBM、XGBoost、随机森林等),通过元学习器优化权重,降低过拟合,提升稳定性。

支持的实验模型

覆盖四种主流体外模型:

  • PAMPA:模拟被动跨膜扩散
  • Caco-2:模拟小肠上皮屏障(FDA认可)
  • RRCK:Caco-2简化版,快速筛选
  • MDCK:犬肾细胞模型,补充验证
4

章节 04

【辅助工具】序列格式转换:MAP到SMILES/HELM的功能

环肽修饰常用MAP格式标注,PCPpred提供两个脚本处理:

  1. map_to_smiles.py:将MAP序列转换为通用SMILES字符串
  2. map_to_helm.py:批量转换为HELM格式(生物制药行业标准),便于与商业软件集成

示例输入:{nnr:ABU}{nnr:0OZ}{nnr:9XD}V{nnr:9XD}AA{d}{nnr:9XD}{nnr:9XD}{nnr:0Q3}{nnr:MBM}{cyc:N-C}

5

章节 05

【应用场景】PCPpred在多肽药物研发中的实践价值

口服多肽药物设计

  • 高通量筛选虚拟化合物库
  • 评估化学修饰对通透性的影响
  • 识别口服潜力环肽骨架
  • 指导合成优先级排序

结构-通透性关系研究

  • 分析环大小、氨基酸残基、疏水性等与通透性的关系

多肽药物重定位

辅助评估注射用多肽改口服的可行性及所需修饰策略

6

章节 06

【局限与展望】PCPpred的当前限制与未来发展方向

局限性

  1. 训练数据覆盖度有限,极端新颖修饰预测可能偏差
  2. 体外模型与人体生物利用度存在差距
  3. 对主动转运(如P-糖蛋白)考虑有限

未来方向

  • 扩展训练数据集
  • 引入物理化学模拟提升机制理解
  • 开发考虑转运蛋白相互作用的模型
  • 建立口服生物利用度端到端预测流程
7

章节 07

【总结】PCPpred对环肽药物研发的意义

PCPpred是计算化学与大语言模型技术的结合,提供开源、可定制的渗透性预测工具,降低口服环肽药物设计门槛,有望加速该领域发展,是科研和工业界从业者值得关注的计算资源。