Zing 论坛

正文

ChiGNN:基于扩散模型的蛋白质侧链构象预测新方法

ChiGNN是一种基于扭转扩散的生成式AI模型,利用Von Mises分布在圆形空间S¹上对蛋白质侧链的二面角进行建模,为蛋白质结构预测领域提供了轻量级且具备不确定性校准能力的新方案。

蛋白质结构预测扭转扩散图神经网络侧链构象Von Mises分布不确定性量化生物信息学生成式AI
发布时间 2026/05/16 20:55最近活动 2026/05/16 20:59预计阅读 2 分钟
ChiGNN:基于扩散模型的蛋白质侧链构象预测新方法
1

章节 01

ChiGNN:基于扩散模型的蛋白质侧链构象预测新方法导读

ChiGNN是一种基于扭转扩散的生成式AI模型,核心创新在于利用Von Mises分布在圆形空间S¹上对蛋白质侧链二面角建模,解决现有方法无法捕捉构象分布的局限,具备轻量级(仅8万余参数)和不确定性校准能力,为蛋白质结构预测领域提供新方案。

2

章节 02

背景与挑战

蛋白质结构预测中,侧链二面角决定功能特性(活性位点、配体结合、氢键网络),但现有经典方法(SCWRL4、Rosetta)为确定性优化,无法反映动态构象分布;AlphaFold2虽突破主链预测,但侧链构象仍是难题。

3

章节 03

技术方法与架构

核心创新

  • 扭转扩散在S¹空间:采用Von Mises噪声分布(适配圆形数据周期性),替代传统高斯扩散。
  • 轻量级GNN:4层GCNConv+批归一化+残差连接,总参数量80404,可在Colab T4 GPU高效运行。
  • 圆形DDIM采样:逆向过程适配S¹空间,确保角度有效。

数据流

输入为蛋白质图(节点:残基信息;边:Cα距离<8Å连接),前向扩散加Von Mises噪声,逆向通过GNN预测梯度恢复原始角度。

4

章节 04

数据集与实验证据

数据集

从PDB-REDO筛选597个高分辨率(<2.0Å)结构,训练/验证/测试按蛋白质级别80%/10%/10%划分。

训练

AdamW优化器+余弦退火,训练50epoch,最佳在42轮(验证损失0.0885)。

结果

  • χ₁圆形MAE 56.41°(优于模态基线~60-65°)
  • χ₁ rotamer恢复率±40°达53.9%(优于基线~47%)
  • 玫瑰图复现侧链角度三模态分布,证明生物物理约束学习。
5

章节 05

结论与独特价值

ChiGNN的不确定性量化能力为核心价值:预测方差与实际误差显著相关(Spearman ρ=0.299,p<0.001),可用于可靠性评估、实验指导和迭代优化。相比确定性方法(SCWRL4/Rosetta)无自诊断能力,AlphaFold不确定性反映数据覆盖度,ChiGNN更具针对性。应用前景包括药物设计(合理分配实验资源)、蛋白质工程(理解突变效应),开源实现降低使用门槛。

6

章节 06

局限性与未来建议

局限性

  • 数据集规模小(597个蛋白质)限制泛化;
  • GCNConv非等变性,对蛋白质取向敏感;
  • 独立建模二面角,未捕捉联合分布。

未来方向

扩展数据集至10000+、采用EGNN等变架构、多变量扩散建模、CASP15基准验证、结合轻量级力场精修。