# pmhc-present：基于AI的肿瘤新抗原-HLA结合预测与公平性评估研究

> UCL COMP0190课程研究项目，系统比较序列模型与结构模型在肿瘤新抗原呈递预测中的性能，特别关注不同祖先背景人群的预测公平性

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-06-16T18:09:50.000Z
- 最近活动: 2026-06-16T18:22:03.339Z
- 热度: 159.8
- 关键词: 肿瘤新抗原, HLA结合预测, AlphaFold, 免疫治疗, 公平性评估, 结构生物学, NetMHCpan, 癌症疫苗
- 页面链接: https://www.zingnex.cn/forum/thread/pmhc-present-ai-hla
- Canonical: https://www.zingnex.cn/forum/thread/pmhc-present-ai-hla
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：lakshaa-s
- 来源平台：github
- 原始标题：pmhc-present: Comparing Sequence-Based and Structure-Based AI Approaches for Neoantigen-HLA Binding Prediction
- 原始链接：https://github.com/lakshaa-s/pmhc-present
- 来源发布时间/更新时间：2026-06-16T18:09:50Z

# pmhc-present：AI驱动的肿瘤新抗原预测与人群公平性研究\n\n## 原作者与来源\n\n- **原作者/维护者：** lakshaa-s（UCL COMP0190/AI4BH 2025-26课程项目）\n- **来源平台：** GitHub\n- **原始标题：** pmhc-present: Comparing Sequence-Based and Structure-Based AI Approaches for Neoantigen-HLA Binding Prediction\n- **原始链接：** https://github.com/lakshaa-s/pmhc-present\n- **发布时间：** 2026年6月16日\n\n## 研究背景：肿瘤免疫治疗的核心挑战\n\n肿瘤新抗原（Neoantigen）是癌细胞因基因突变而产生的新型蛋白质片段，这些片段被呈递到细胞表面后，可被免疫系统识别为"非己"成分，从而激活T细胞介导的抗肿瘤免疫反应。新抗原是癌症免疫治疗的关键靶点，也是个性化癌症疫苗设计的核心。\n\n然而，并非所有突变产生的肽段都能被有效呈递。肽段必须首先与患者的人类白细胞抗原（HLA）分子结合，形成稳定的pMHC复合物，才能被T细胞受体识别。HLA基因具有极高的多态性——目前已知的HLA等位基因超过三万种，不同人群中的分布差异显著。准确预测特定肽段是否能与特定HLA等位基因结合，是肿瘤免疫信息学中最具挑战性的问题之一。\n\n## 研究动机：超越序列的视角\n\n当前主流的pMHC结合预测工具（如NetMHCpan）主要依赖序列信息，通过神经网络学习肽段序列与HLA伪序列之间的相互作用模式。这些方法在常见HLA等位基因上表现优异，但面临一个关键局限：它们无法直接建模结合界面的三维结构特征。\n\n结构信息的重要性体现在多个层面。首先，肽段与HLA的结合涉及特定的锚定残基位置和结合口袋的几何互补性；其次，不同HLA等位基因的结合口袋结构差异可能无法完全通过序列相似性捕捉；最重要的是，结构模型可能为稀有HLA等位基因提供更可靠的预测，因为这些等位基因的训练数据稀少，序列模型容易过拟合。\n\npmhc-present项目正是在这一背景下提出核心研究问题：结构信息能否提升pMHC结合预测的准确性，特别是在代表性不足的HLA等位基因上？\n\n## 研究设计与方法框架\n\n该项目设计了三个递进式的研究问题，系统评估序列模型与结构模型的相对优势及其协同潜力。\n\n### 研究问题一：结构模型在稀有HLA上的表现\n\n研究团队首先比较AlphaFold衍生的三维结构特征与纯序列特征在不同频率HLA等位基因上的预测性能。假设是：对于训练数据稀少的稀有等位基因，结构模型可能具有更好的泛化能力，因为蛋白质折叠规律具有跨物种和跨等位基因的普适性。\n\n技术实现上，项目使用NetMHCpan-4.1作为序列基线，同时开发基于PyTorch的自定义神经网络处理AlphaFold预测的结构特征。结构特征包括：肽段-HLA界面的接触图、形状互补性评分、以及AlphaFold输出的pLDDT置信度分数等。\n\n### 研究问题二：序列与结构的协同集成\n\n第二个研究问题探索两种信息源的协同效应：序列特征与结构特征在集成模型中是否能产生1+1>2的效果？\n\n项目设计了多种集成策略进行对比：简单的特征拼接、多模态注意力机制、以及分阶段的预测融合。评估指标不仅包括整体AUC，还特别关注不同HLA等位基因群组的性能差异，以检验集成方法是否能同时提升常见和稀有等位基因的预测准确性。\n\n### 研究问题三：突变扫描揭示学习机制\n\n最具创新性的第三个研究问题采用计算饱和突变扫描（In Silico Saturation Mutagenesis）来探究两种模型类型是否学习了相同的结合生物学原理。\n\n具体而言，研究者对肽段的每个位置系统性地替换为所有20种氨基酸，计算每种突变对预测结合亲和力的影响。通过比较序列模型和结构模型的突变效应图谱，可以回答：两种模型是否识别了相同的锚定残基？它们对肽段柔性区域的敏感度是否一致？这些发现不仅具有方法论意义，也能为模型可信度评估提供依据。\n\n## 公平性评估：基因组医学的伦理维度\n\npmhc-present项目的一个突出特点是明确关注预测公平性。HLA等位基因频率在不同祖先人群中差异显著：某些等位基因在欧洲人群中常见，而在非洲或东亚人群中罕见，反之亦然。如果预测模型在稀有等位基因上性能较差，将系统性地对某些人群的新抗原预测准确性降低，进而影响个性化免疫治疗的效果。\n\n项目使用TRACERx非小细胞肺癌数据集作为应用层面的验证。TRACERx是一项具有里程碑意义的癌症进化研究，其数据访问受到严格控制以确保研究伦理。项目明确区分了基准评估数据集（公开可用）与应用验证数据集（受控访问），这种严谨的数据管理值得肯定。\n\n## 技术实现细节\n\n项目的技术栈体现了现代机器学习工程的最佳实践。数据处理流程包括：从MHC Motif Atlas提取已验证的呈递肽段、生成长度匹配的阴性样本（未呈递肽段）、以及通过伪序列映射将HLA等位基因转换为34个氨基酸残基的口袋序列表示。\n\n阴性采样策略特别值得关注。项目提供了两种模式：从人类蛋白质组随机抽取的"蛋白质组模式"（更符合生物学现实）和从肽段池随机抽取的"快速基线模式"。这种设计允许研究者在概念验证阶段快速迭代，同时确保最终结果的生物学相关性。\n\n结构特征提取涉及AlphaFold的重新折叠（refolding）计算，这是整个流程中计算开销最大的环节。项目智能地标记了哪些特征需要重新折叠（如pLDDT、PAE、ipSAE），哪些可以在野生型骨架上快速计算（如接触图、形状互补性），从而优化了计算资源分配。\n\n## 项目局限与未来展望\n\n作为课程研究项目，pmhc-present目前处于Beta阶段，部分功能（如大规模的AlphaFold重新折叠和完整训练流程）仅在GPU服务器环境可用。尽管如此，项目已经建立了完整的代码框架和评估体系。\n\n未来发展方向可能包括：扩展到HLA-II类分子（呈递更长的外源性抗原肽段）、整合T细胞受体交叉反应性预测、以及开发轻量化的结构特征提取方法以降低计算门槛。\n\n## 结语\n\npmhc-present代表了计算肿瘤学领域的一个重要研究方向：将深度学习的表示学习能力与结构生物学的物理洞察相结合，同时不忘关注技术应用的伦理公平性。在精准免疫治疗快速发展的今天，这类研究不仅具有学术价值，更直接关系到能否让所有患者平等受益于基因组医学的进步。\n