Zing 论坛

正文

Yeti:面向多模态蛋白质生成的紧凑高效结构分词器

Yeti是一种基于无查找量化的蛋白质结构分词器,以仅1/10的参数量实现了与ESM3相当的重建精度,并在从头训练的多模态模型中展现出强大的生成能力。

蛋白质结构多模态模型分词器无查找量化流匹配蛋白质生成ESM3AI for Science
发布时间 2026/05/11 12:49最近活动 2026/05/12 14:19预计阅读 2 分钟
Yeti:面向多模态蛋白质生成的紧凑高效结构分词器
1

章节 01

【导读】Yeti:紧凑高效的多模态蛋白质结构分词器

Yeti是一种基于无查找量化的蛋白质结构分词器,以仅1/10的参数量实现了与ESM3相当的重建精度,并在从头训练的多模态模型中展现出强大的生成能力。它旨在解决蛋白质多模态AI中结构表示的核心挑战,为蛋白质设计从预测走向创造提供了高效的基础组件。

2

章节 02

背景:蛋白质多模态AI的核心挑战

蛋白质是生命活动的基本执行者,功能由三维结构决定。AlphaFold等成果推动了结构预测,但蛋白质设计需生成新型蛋白质,要求模型理解序列、结构和功能注释并跨模态转换。核心挑战是结构信息的表示:蛋白质结构是连续三维坐标,无法直接输入离散序列模型;现有结构分词器过于关注重建精度,忽视生成任务需求,优秀的分词器需兼顾还原精度、生成流畅性和跨模态推理能力。

3

章节 03

Yeti的核心设计:无查找量化与流匹配目标

Yeti采用简洁高效的设计,核心技术包括:

  1. 无查找量化(LFQ):无需维护庞大码本,通过数学变换直接学习离散表示,减少参数量并提高码本利用率;
  2. 流匹配目标:端到端训练,针对多模态学习目标优化,比传统扩散模型更稳定高效,天然适合生成任务。
4

章节 04

性能与生成能力:小身材大能量的实证

Yeti的效率突出:参数量仅为ESM3的1/10,却取得优异表现:

  • 码本利用率与多样性:多个数据集上最佳码本利用率,离散表示紧凑、信息密度高,生成token序列多样性丰富,避免模式崩溃;
  • 重建精度:结构重建任务第二好精度,在压缩与保真间平衡;
  • 生成能力验证:以Yeti为结构编码器从头训练多模态模型(无预训练权重),能同时生成合理序列和三维结构,结果与大10倍的模型相当。
5

章节 05

技术细节:Yeti的工作流程与LFQ创新

Yeti处理流程:输入结构编码为连续潜在向量→LFQ层离散化为结构token;训练时从噪声恢复真实token序列,推理时从随机噪声迭代去噪生成新结构。 LFQ创新:传统向量量化用欧氏距离查找最近邻(梯度传播难、码本利用率低),LFQ通过随机扰动和直通估计器实现端到端可微训练,正则化项鼓励均匀使用量化中心。

6

章节 06

应用前景:推动蛋白质设计的新可能

Yeti的紧凑高效适合资源受限场景(单GPU训练多模态模型),应用前景包括:

  • 功能导向设计:结合功能注释训练条件生成模型,产生特定酶活性、结合亲和力或稳定性的蛋白质;
  • 序列-结构协同优化:支持序列和结构空间的协同生成,突破传统固定一方优化另一方的局限;
  • 多模态推理:未来可整合动力学信息、实验数据等更多模态,构建更全面的蛋白质理解模型。
7

章节 07

对比与总结:Yeti的独特价值与未来意义

与ESM3、FoldToken等现有工作相比,Yeti明确针对生成任务优化(ESM3分词器主要服务重建和表示学习);极简设计证明小模型可通过算法创新实现大效果,推动AI for Science普及。 Yeti为蛋白质多模态AI提供高效、紧凑且生成友好的结构表示方案,展示了面向生成任务设计分词器的重要性,将在蛋白质设计从预测走向创造中发挥关键作用。