Zing 论坛

正文

pmhc-present:基于AI的肿瘤新抗原-HLA结合预测与公平性评估研究

UCL COMP0190课程研究项目,系统比较序列模型与结构模型在肿瘤新抗原呈递预测中的性能,特别关注不同祖先背景人群的预测公平性

肿瘤新抗原HLA结合预测AlphaFold免疫治疗公平性评估结构生物学NetMHCpan癌症疫苗
发布时间 2026/06/17 02:09最近活动 2026/06/17 02:22预计阅读 2 分钟
pmhc-present:基于AI的肿瘤新抗原-HLA结合预测与公平性评估研究
1

章节 01

【导读】pmhc-present:AI驱动的肿瘤新抗原预测与人群公平性研究

本项目是UCL COMP0190课程研究项目,旨在系统比较序列模型(如NetMHCpan)与结构模型(基于AlphaFold)在肿瘤新抗原-HLA结合预测中的性能,并特别关注不同祖先背景人群的预测公平性。核心研究问题包括结构模型对稀有HLA等位基因的预测能力、序列与结构特征的协同效应,以及通过突变扫描揭示模型的学习机制。项目同时强调基因组医学的伦理维度,确保技术应用的公平性。

2

章节 02

研究背景:肿瘤免疫治疗的核心挑战

肿瘤新抗原是癌细胞基因突变产生的新型蛋白质片段,被HLA分子呈递到细胞表面后可激活免疫系统,是免疫治疗和个性化疫苗的关键靶点。但肽段需与HLA结合形成稳定复合物才能被识别,而HLA基因多态性极高(超3万种等位基因),不同人群分布差异显著,准确预测结合是肿瘤免疫信息学的重大挑战。

3

章节 03

研究动机:超越序列的结构视角

当前主流工具(如NetMHCpan)依赖序列信息,在常见HLA等位基因上表现良好,但无法直接建模三维结构特征。结构信息可捕捉锚定残基位置、结合口袋几何互补性,且对训练数据稀少的稀有HLA等位基因可能有更好泛化能力。本项目核心问题:结构信息能否提升预测准确性,尤其是在代表性不足的HLA等位基因上?

4

章节 04

研究设计与方法框架

项目设计三个递进式研究问题:1)比较AlphaFold结构特征与纯序列特征在不同频率HLA等位基因上的性能,假设结构模型对稀有等位基因泛化更好;2)探索序列与结构特征的协同集成(特征拼接、多模态注意力等),评估整体及不同HLA群组的性能差异;3)通过计算饱和突变扫描,对比两种模型识别的锚定残基及对肽段柔性区域的敏感度,揭示学习机制。

5

章节 05

公平性评估:基因组医学的伦理维度

HLA等位基因频率在不同祖先人群中差异显著,若模型在稀有等位基因上性能差,将系统性降低部分人群的预测准确性。项目使用TRACERx非小细胞肺癌数据集验证,区分公开基准数据集与受控应用验证数据集,确保数据管理严谨性。

6

章节 06

技术实现细节

数据处理流程包括从MHC Motif Atlas提取验证肽段、生成长度匹配阴性样本(蛋白质组模式和快速基线模式)、HLA伪序列映射。结构特征提取涉及AlphaFold重新折叠(计算开销大),项目优化资源分配:标记需重新折叠的特征(如pLDDT)和可快速计算的特征(如接触图)。

7

章节 07

项目局限与未来展望

当前处于Beta阶段,部分功能(大规模AlphaFold重新折叠、完整训练流程)仅GPU服务器可用。未来方向:扩展到HLA-II类分子、整合T细胞受体交叉反应性预测、开发轻量化结构特征提取方法降低计算门槛。

8

章节 08

结语

pmhc-present将深度学习与结构生物学结合,关注技术应用的伦理公平性,代表计算肿瘤学的重要方向。在精准免疫治疗快速发展的今天,这类研究不仅有学术价值,更关系到所有患者平等受益于基因组医学进步。