正文

Yeti：面向多模态蛋白质生成的紧凑高效结构分词器

Yeti是一种基于无查找量化的蛋白质结构分词器，以仅1/10的参数量实现了与ESM3相当的重建精度，并在从头训练的多模态模型中展现出强大的生成能力。

蛋白质结构多模态模型分词器无查找量化流匹配蛋白质生成ESM3AI for Science

发布时间 2026/05/11 12:49最近活动 2026/05/12 14:19预计阅读 2 分钟

章节 01

【导读】Yeti：紧凑高效的多模态蛋白质结构分词器

Yeti是一种基于无查找量化的蛋白质结构分词器，以仅1/10的参数量实现了与ESM3相当的重建精度，并在从头训练的多模态模型中展现出强大的生成能力。它旨在解决蛋白质多模态AI中结构表示的核心挑战，为蛋白质设计从预测走向创造提供了高效的基础组件。

章节 02

背景：蛋白质多模态AI的核心挑战

蛋白质是生命活动的基本执行者，功能由三维结构决定。AlphaFold等成果推动了结构预测，但蛋白质设计需生成新型蛋白质，要求模型理解序列、结构和功能注释并跨模态转换。核心挑战是结构信息的表示：蛋白质结构是连续三维坐标，无法直接输入离散序列模型；现有结构分词器过于关注重建精度，忽视生成任务需求，优秀的分词器需兼顾还原精度、生成流畅性和跨模态推理能力。

章节 03

Yeti的核心设计：无查找量化与流匹配目标

Yeti采用简洁高效的设计，核心技术包括：

无查找量化（LFQ）：无需维护庞大码本，通过数学变换直接学习离散表示，减少参数量并提高码本利用率；
流匹配目标：端到端训练，针对多模态学习目标优化，比传统扩散模型更稳定高效，天然适合生成任务。

章节 04

性能与生成能力：小身材大能量的实证

Yeti的效率突出：参数量仅为ESM3的1/10，却取得优异表现：

码本利用率与多样性：多个数据集上最佳码本利用率，离散表示紧凑、信息密度高，生成token序列多样性丰富，避免模式崩溃；
重建精度：结构重建任务第二好精度，在压缩与保真间平衡；
生成能力验证：以Yeti为结构编码器从头训练多模态模型（无预训练权重），能同时生成合理序列和三维结构，结果与大10倍的模型相当。

章节 05

技术细节：Yeti的工作流程与LFQ创新

Yeti处理流程：输入结构编码为连续潜在向量→LFQ层离散化为结构token；训练时从噪声恢复真实token序列，推理时从随机噪声迭代去噪生成新结构。 LFQ创新：传统向量量化用欧氏距离查找最近邻（梯度传播难、码本利用率低），LFQ通过随机扰动和直通估计器实现端到端可微训练，正则化项鼓励均匀使用量化中心。

章节 06

应用前景：推动蛋白质设计的新可能

Yeti的紧凑高效适合资源受限场景（单GPU训练多模态模型），应用前景包括：

功能导向设计：结合功能注释训练条件生成模型，产生特定酶活性、结合亲和力或稳定性的蛋白质；
序列-结构协同优化：支持序列和结构空间的协同生成，突破传统固定一方优化另一方的局限；
多模态推理：未来可整合动力学信息、实验数据等更多模态，构建更全面的蛋白质理解模型。

章节 07

对比与总结：Yeti的独特价值与未来意义

与ESM3、FoldToken等现有工作相比，Yeti明确针对生成任务优化（ESM3分词器主要服务重建和表示学习）；极简设计证明小模型可通过算法创新实现大效果，推动AI for Science普及。 Yeti为蛋白质多模态AI提供高效、紧凑且生成友好的结构表示方案，展示了面向生成任务设计分词器的重要性，将在蛋白质设计从预测走向创造中发挥关键作用。