章节 01
【导读】pmhc-present:AI驱动的肿瘤新抗原预测与人群公平性研究
本项目是UCL COMP0190课程研究项目,旨在系统比较序列模型(如NetMHCpan)与结构模型(基于AlphaFold)在肿瘤新抗原-HLA结合预测中的性能,并特别关注不同祖先背景人群的预测公平性。核心研究问题包括结构模型对稀有HLA等位基因的预测能力、序列与结构特征的协同效应,以及通过突变扫描揭示模型的学习机制。项目同时强调基因组医学的伦理维度,确保技术应用的公平性。
正文
UCL COMP0190课程研究项目,系统比较序列模型与结构模型在肿瘤新抗原呈递预测中的性能,特别关注不同祖先背景人群的预测公平性
章节 01
本项目是UCL COMP0190课程研究项目,旨在系统比较序列模型(如NetMHCpan)与结构模型(基于AlphaFold)在肿瘤新抗原-HLA结合预测中的性能,并特别关注不同祖先背景人群的预测公平性。核心研究问题包括结构模型对稀有HLA等位基因的预测能力、序列与结构特征的协同效应,以及通过突变扫描揭示模型的学习机制。项目同时强调基因组医学的伦理维度,确保技术应用的公平性。
章节 02
肿瘤新抗原是癌细胞基因突变产生的新型蛋白质片段,被HLA分子呈递到细胞表面后可激活免疫系统,是免疫治疗和个性化疫苗的关键靶点。但肽段需与HLA结合形成稳定复合物才能被识别,而HLA基因多态性极高(超3万种等位基因),不同人群分布差异显著,准确预测结合是肿瘤免疫信息学的重大挑战。
章节 03
当前主流工具(如NetMHCpan)依赖序列信息,在常见HLA等位基因上表现良好,但无法直接建模三维结构特征。结构信息可捕捉锚定残基位置、结合口袋几何互补性,且对训练数据稀少的稀有HLA等位基因可能有更好泛化能力。本项目核心问题:结构信息能否提升预测准确性,尤其是在代表性不足的HLA等位基因上?
章节 04
项目设计三个递进式研究问题:1)比较AlphaFold结构特征与纯序列特征在不同频率HLA等位基因上的性能,假设结构模型对稀有等位基因泛化更好;2)探索序列与结构特征的协同集成(特征拼接、多模态注意力等),评估整体及不同HLA群组的性能差异;3)通过计算饱和突变扫描,对比两种模型识别的锚定残基及对肽段柔性区域的敏感度,揭示学习机制。
章节 05
HLA等位基因频率在不同祖先人群中差异显著,若模型在稀有等位基因上性能差,将系统性降低部分人群的预测准确性。项目使用TRACERx非小细胞肺癌数据集验证,区分公开基准数据集与受控应用验证数据集,确保数据管理严谨性。
章节 06
数据处理流程包括从MHC Motif Atlas提取验证肽段、生成长度匹配阴性样本(蛋白质组模式和快速基线模式)、HLA伪序列映射。结构特征提取涉及AlphaFold重新折叠(计算开销大),项目优化资源分配:标记需重新折叠的特征(如pLDDT)和可快速计算的特征(如接触图)。
章节 07
当前处于Beta阶段,部分功能(大规模AlphaFold重新折叠、完整训练流程)仅GPU服务器可用。未来方向:扩展到HLA-II类分子、整合T细胞受体交叉反应性预测、开发轻量化结构特征提取方法降低计算门槛。
章节 08
pmhc-present将深度学习与结构生物学结合,关注技术应用的伦理公平性,代表计算肿瘤学的重要方向。在精准免疫治疗快速发展的今天,这类研究不仅有学术价值,更关系到所有患者平等受益于基因组医学进步。