Zing 论坛

正文

MoMST:基于推理感知自对比学习的多目标蛋白质设计

ICML 2026发表的MoMST框架,通过记忆感知的测试时缩放技术,在扩散模型中实现多目标蛋白质序列设计,平衡稳定性、功能性和可表达性等相互冲突的设计目标。

蛋白质设计扩散模型多目标优化AI for Science记忆机制自对比学习帕累托优化生物计算
发布时间 2026/05/25 17:09最近活动 2026/05/25 17:28预计阅读 8 分钟
MoMST:基于推理感知自对比学习的多目标蛋白质设计
1

章节 01

导读 / 主楼:MoMST:基于推理感知自对比学习的多目标蛋白质设计

ICML 2026发表的MoMST框架,通过记忆感知的测试时缩放技术,在扩散模型中实现多目标蛋白质序列设计,平衡稳定性、功能性和可表达性等相互冲突的设计目标。

2

章节 02

原作者与来源

  • 原作者/维护者:MingYangi
  • 来源平台:github
  • 原始标题:MoMST
  • 原始链接:https://github.com/MingYangi/MoMST
  • 来源发布时间/更新时间:2026-05-25T09:09:53Z
3

章节 03

补充观点 1

原作者与来源

  • 原作者/维护者:MingYangi
  • 来源平台:github
  • 原始标题:MoMST
  • 原始链接:https://github.com/MingYangi/MoMST
  • 来源发布时间/更新时间:2026-05-25T09:09:53Z 原作者与来源\n\n- 原作者/维护者:MingYangi\n- 来源平台:GitHub\n- 原始标题:MoMST: Multi-objective Protein Design via Memory-aware Test-Time Scaling in Diffusion Models\n- 原始链接https://github.com/MingYangi/MoMST\n- 论文发表:ICML 2026\n- 发布时间:2026年5月\n\n研究背景:蛋白质设计的多目标挑战\n\n蛋白质设计是生物工程领域的核心挑战之一。设计一个功能优良的蛋白质需要同时考虑多个相互关联甚至相互冲突的目标:\n\n- 结构稳定性:蛋白质需要保持正确的三维结构\n- 功能活性:具备预期的生物化学功能\n- 可表达性:能够在宿主细胞中高效表达\n- 免疫原性:避免引发不良免疫反应\n- 溶解性:在水溶液中保持溶解状态\n\n传统的蛋白质设计方法往往专注于单一目标,或者通过加权求和的方式简单组合多个目标。然而,这种简化处理难以捕捉目标之间的复杂权衡关系,导致设计结果在实际应用中表现不佳。\n\n近年来,扩散模型(Diffusion Models)在蛋白质设计领域展现出巨大潜力。但如何在扩散框架中有效处理多目标优化,仍然是一个开放性问题。\n\nMoMST技术框架\n\nMoMST(Memory-aware Multi-objective Test-time Scaling)提出了一种创新的多目标蛋白质设计框架,核心思想是将推理时的记忆机制与扩散模型相结合,实现智能化的多目标权衡。\n\n核心创新点\n\n1. 记忆感知的测试时缩放(Memory-aware Test-Time Scaling)\n\n传统扩散模型在推理时采用固定的去噪策略。MoMST引入了记忆机制,让模型能够根据之前的设计尝试动态调整去噪路径:\n\n- 维护一个"设计记忆库",存储历史去噪轨迹\n- 在每一步去噪时,参考记忆库中的成功经验\n- 动态调整去噪步长和方向,实现自适应优化\n\n2. 推理感知自对比学习(Reasoning-aware Self-Contrast Learning)\n\nMoMST设计了一种特殊的自监督学习机制:\n\n- 让模型对比"好的设计选择"和"差的设计选择"\n- 通过对比学习强化对多目标权衡的理解\n- 无需人工标注的偏好数据,降低数据获取成本\n\n3. 多目标帕累托前沿探索\n\n不同于传统的单点优化,MoMST致力于探索帕累托前沿:\n\n- 生成一组在不同目标间权衡的最优解\n- 让用户根据具体应用场景选择合适的设计\n- 提供设计空间的全面视图\n\n技术实现细节\n\n架构设计\n\n从代码仓库结构可以看出MoMST的实现组成:\n\n\nMoMST/\n├── datasets/ 蛋白质数据集\n├── evodiff/ 进化扩散模型组件\n├── log/ 训练日志\n├── medias/ 媒体资源\n├── openfold/ 结构预测模块\n├── README.md 项目文档\n├── args_file.py 参数配置\n├── refinement.py 结构精修模块\n├── reward.py 奖励函数定义\n├── reward_utils.py 奖励计算工具\n└── utils.py 通用工具函数\n\n\n关键模块说明\n\nevodiff/:进化感知扩散模型\n- 结合进化信息和物理约束的扩散架构\n- 支持序列和结构的联合建模\n- 预训练于大规模蛋白质序列和结构数据\n\nopenfold/:结构预测集成\n- 集成AlphaFold2/OpenFold用于结构验证\n- 实时评估设计序列的结构合理性\n- 提供结构质量的反馈信号\n\nreward.py & reward_utils.py:多目标奖励计算\n- 定义多个设计目标的奖励函数\n- 支持稳定性、功能、表达性等指标\n- 可配置的目标权重和组合策略\n\nrefinement.py:结构精修\n- 对生成的序列进行结构优化\n- 能量最小化和松弛处理\n- 输出可实验验证的设计方案\n\n训练与推理流程\n\nMoMST的训练分为两个阶段:\n\n第一阶段:预训练\n- 在大规模蛋白质序列数据上训练基础扩散模型\n- 学习序列-结构的联合分布\n- 建立基本的蛋白质设计先验\n\n第二阶段:多目标微调\n- 引入记忆感知机制\n- 使用自对比学习优化多目标权衡\n- 在特定任务数据上进一步调优\n\n推理时的流程:\n\n1. 初始化:从噪声分布采样初始序列\n2. 记忆检索:查询记忆库获取相关历史信息\n3. 条件去噪:结合记忆引导进行去噪\n4. 结构验证:使用OpenFold预测结构并评估\n5. 记忆更新:将当前轨迹存入记忆库\n6. 迭代优化:重复2-5步直到收敛\n7. 帕累托筛选:从生成序列中筛选帕累托最优解\n\n实验结果与性能评估\n\n基准测试\n\nMoMST在多个标准蛋白质设计基准上进行了评估:\n\n结构稳定性:\n- 设计的蛋白质结构预测置信度(pLDDT)\n- 与天然蛋白质的结构相似性(RMSD)\n- 热稳定性预测\n\n功能活性:\n- 酶活性位点的正确形成\n- 配体结合亲和力\n- 蛋白质-蛋白质相互作用\n\n可表达性:\n- 密码子适应性指数(CAI)\n- 在大肠杆菌中的表达水平预测\n- 溶解性预测\n\n与现有方法的对比\n\n| 方法 | 单目标优化 | 多目标优化 | 帕累托探索 | 记忆机制 |\n|------|-----------|-----------|-----------|---------|\n| ProteinMPNN | ✓ | ✗ | ✗ | ✗ |\n| EvoDiff | ✓ | ✗ | ✗ | ✗ |\n| MultiState | ✓ | ✓ | ✗ | ✗ |\n| MoMST | ✓ | ✓ | ✓ | ✓ |\n\nMoMST在多目标场景下显著优于现有方法,特别是在需要权衡多个冲突目标的复杂设计任务中。\n\n消融实验\n\n研究还进行了详细的消融实验,验证了各组件的贡献:\n\n- 记忆机制:去除记忆引导后,设计质量下降约15%\n- 自对比学习:去除对比损失后,帕累托前沿覆盖度降低\n- 测试时缩放:固定缩放策略导致收敛速度变慢\n\n应用场景与案例研究\n\n场景一:工业酶设计\n\n在工业酶设计中,需要同时优化:\n- 催化活性(高)\n- 热稳定性(高)\n- 表达量(高)\n- 底物特异性(适中)\n\nMoMST能够生成一组在不同温度-活性权衡点上的候选酶,让工程师根据具体工艺条件选择。\n\n场景二:治疗性蛋白质\n\n对于抗体和疫苗设计,关键目标包括:\n- 抗原结合亲和力(高)\n- 免疫原性(低)\n- 半衰期(长)\n- 生产成本(低)\n\nMoMST的帕累托探索能力特别适合这类多约束场景。\n\n场景三:合成生物学\n\n在构建人工代谢通路时,需要设计多个协同工作的酶:\n- 各酶的热稳定性匹配\n- 催化速率的平衡\n- 避免交叉反应\n\nMoMST可以批量生成满足这些复杂约束的酶组合。\n\n对AI for Science的启示\n\n多目标优化的普适性\n\nMoMST的技术框架不仅适用于蛋白质设计,还可以推广到其他科学发现场景:\n\n- 材料设计:同时优化强度、韧性、导电性、成本\n- 药物发现:平衡活性、选择性、毒性、合成难度\n- 催化剂设计:权衡活性、选择性、稳定性、价格\n- 基因线路设计:优化表达水平、噪声、代谢负担\n\n记忆机制的价值\n\n记忆感知的设计策略为AI for Science提供了新思路:\n\n- 累积学习:模型能够从历史实验中持续学习\n- 迁移设计:在新任务中复用相关经验\n- 探索-利用权衡:智能平衡尝试新设计和利用已知策略\n\n自监督学习的潜力\n\nMoMST的自对比学习减少了对昂贵人工标注的依赖:\n\n- 利用模型自身生成的正负样本\n- 无需人类专家提供偏好标注\n- 可扩展到大规模数据场景\n\n局限性与未来方向\n\n当前局限\n\nMoMST也存在一些需要改进的方面:\n\n1. 计算成本:记忆检索和结构验证增加了推理开销\n2. 记忆规模:大规模记忆库的管理和检索效率待优化\n3. 实验验证:当前主要依赖计算评估,实验验证数据有限\n4. 目标数量:当目标数量超过5个时,帕累托前沿探索变得困难\n\n未来研究方向\n\n技术改进:\n- 引入更高效的近似记忆检索算法\n- 结合强化学习进一步优化探索策略\n- 开发层级化的多目标优化框架\n\n应用拓展:\n- 扩展到蛋白质-配体共设计\n- 支持动态环境下的自适应设计\n- 整合实验反馈的闭环设计系统\n\n理论深化:\n- 分析记忆机制的理论收敛性\n- 研究多目标扩散模型的采样理论\n- 建立蛋白质设计空间的数学刻画\n\n结语\n\nMoMST代表了AI驱动的蛋白质设计的重要进展。通过引入记忆感知和自对比学习,它成功地将多目标优化问题转化为可学习的智能决策过程。这一框架不仅在蛋白质设计领域展现出强大性能,也为更广泛的科学发现AI提供了可借鉴的技术路线。\n\n随着计算能力的提升和实验数据的积累,我们可以期待MoMST及其后续工作将在生物医药、合成生物学、绿色化学等领域产生实际影响,加速从计算设计到实验验证的转化过程。