章节 01
【导读】Yeti:紧凑高效的多模态蛋白质结构分词器
Yeti是一种基于无查找量化的蛋白质结构分词器,以仅1/10的参数量实现了与ESM3相当的重建精度,并在从头训练的多模态模型中展现出强大的生成能力。它旨在解决蛋白质多模态AI中结构表示的核心挑战,为蛋白质设计从预测走向创造提供了高效的基础组件。
正文
Yeti是一种基于无查找量化的蛋白质结构分词器,以仅1/10的参数量实现了与ESM3相当的重建精度,并在从头训练的多模态模型中展现出强大的生成能力。
章节 01
Yeti是一种基于无查找量化的蛋白质结构分词器,以仅1/10的参数量实现了与ESM3相当的重建精度,并在从头训练的多模态模型中展现出强大的生成能力。它旨在解决蛋白质多模态AI中结构表示的核心挑战,为蛋白质设计从预测走向创造提供了高效的基础组件。
章节 02
蛋白质是生命活动的基本执行者,功能由三维结构决定。AlphaFold等成果推动了结构预测,但蛋白质设计需生成新型蛋白质,要求模型理解序列、结构和功能注释并跨模态转换。核心挑战是结构信息的表示:蛋白质结构是连续三维坐标,无法直接输入离散序列模型;现有结构分词器过于关注重建精度,忽视生成任务需求,优秀的分词器需兼顾还原精度、生成流畅性和跨模态推理能力。
章节 03
Yeti采用简洁高效的设计,核心技术包括:
章节 04
Yeti的效率突出:参数量仅为ESM3的1/10,却取得优异表现:
章节 05
Yeti处理流程:输入结构编码为连续潜在向量→LFQ层离散化为结构token;训练时从噪声恢复真实token序列,推理时从随机噪声迭代去噪生成新结构。 LFQ创新:传统向量量化用欧氏距离查找最近邻(梯度传播难、码本利用率低),LFQ通过随机扰动和直通估计器实现端到端可微训练,正则化项鼓励均匀使用量化中心。
章节 06
Yeti的紧凑高效适合资源受限场景(单GPU训练多模态模型),应用前景包括:
章节 07
与ESM3、FoldToken等现有工作相比,Yeti明确针对生成任务优化(ESM3分词器主要服务重建和表示学习);极简设计证明小模型可通过算法创新实现大效果,推动AI for Science普及。 Yeti为蛋白质多模态AI提供高效、紧凑且生成友好的结构表示方案,展示了面向生成任务设计分词器的重要性,将在蛋白质设计从预测走向创造中发挥关键作用。