# Yeti：面向多模态蛋白质生成的紧凑高效结构分词器

> Yeti是一种基于无查找量化的蛋白质结构分词器，以仅1/10的参数量实现了与ESM3相当的重建精度，并在从头训练的多模态模型中展现出强大的生成能力。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-11T04:49:47.000Z
- 最近活动: 2026-05-12T06:19:50.171Z
- 热度: 125.5
- 关键词: 蛋白质结构, 多模态模型, 分词器, 无查找量化, 流匹配, 蛋白质生成, ESM3, AI for Science
- 页面链接: https://www.zingnex.cn/forum/thread/yeti
- Canonical: https://www.zingnex.cn/forum/thread/yeti
- Markdown 来源: ingested_event

---

## 蛋白质AI的多模态挑战

蛋白质是生命活动的基本执行者，其功能由其三维结构决定。近年来，AlphaFold等突破性成果让AI在蛋白质结构预测领域取得了巨大成功。然而，真正的蛋白质设计不仅需要预测已知序列的结构，更需要生成具有特定功能的新型蛋白质。这要求AI模型能够同时理解序列、结构和功能注释，并在这些模态之间自由转换。

多模态蛋白质模型的核心挑战在于如何表示结构信息。与文本不同，蛋白质结构是连续的三维坐标数据，无法直接输入Transformer等离散序列模型。现有的解决方案是将结构"分词"为离散token，但现有方法往往过于关注重建精度，忽视了生成任务的需求。一个优秀的结构分词器不仅要能准确还原输入结构，更要支持流畅的结构生成和跨模态推理。

## Yeti的设计哲学

Yeti（以传说中的雪怪命名）正是为解决这一矛盾而生。它采用了一种简洁而高效的设计，核心基于两个关键技术：

**无查找量化（Lookup-Free Quantization, LFQ）** —— 传统向量量化需要维护一个庞大的码本，通过最近邻查找将连续向量映射到离散token。LFQ则通过巧妙的数学变换，直接在量化空间中学习离散表示，无需显式存储码本。这大大减少了模型参数量，同时提高了码本利用率。

**流匹配目标（Flow Matching Objective）** —— Yeti采用端到端训练策略，直接针对多模态学习的目标进行优化。流匹配是一种新兴的生成模型训练方法，比传统的扩散模型更稳定、更高效。通过将分词器与生成目标联合训练，Yeti天然地更适合后续的生成任务。

## 性能表现：小身材大能量

Yeti最令人印象深刻的是其效率。与ESM3等现有方法相比，Yeti的参数量仅为其1/10，却在多项指标上取得了相当甚至更优的表现：

**码本利用率与多样性** —— Yeti在多个数据集上实现了最佳的码本利用率，这意味着学习到的离散表示更加紧凑、信息密度更高。同时，生成的token序列展现出丰富的多样性，避免了模式崩溃问题。

**重建精度** —— 在结构重建任务上，Yeti取得了第二好的精度。考虑到其参数量仅为对比方法的十分之一，这一成绩尤为可贵。这表明Yeti在压缩与保真之间找到了出色的平衡点。

## 生成能力验证：从头训练的多模态模型

为了真正验证Yeti的生成能力，研究团队进行了一项严格的测试：使用Yeti作为结构编码器，从头训练一个多模态蛋白质模型，不使用任何预训练权重。

这个紧凑的多模态模型联合学习蛋白质序列和结构token，在无条件生成任务中表现出色。它能够同时生成合理的氨基酸序列和对应的三维结构，且生成结果与比它大10倍的模型相当。这证明了Yeti不仅是一个好的"压缩器"，更是一个优秀的"生成伙伴"。

## 技术细节：Yeti的工作原理

Yeti的处理流程简洁明了。输入的蛋白质结构首先被编码为连续的潜在向量，然后通过LFQ层离散化为结构token。在训练阶段，模型学习从噪声中恢复真实的结构token序列；在推理阶段，可以从随机噪声出发，通过迭代去噪生成全新的结构。

关键创新在于LFQ的设计。传统向量量化使用欧氏距离在码本中查找最近邻，这导致梯度传播困难（因为argmin操作不可微）和码本利用率低下（部分码本向量很少被选中）。LFQ通过引入随机扰动和直通估计器，实现了端到端的可微训练，同时通过正则化项鼓励均匀使用所有量化中心。

## 应用前景：从理解到设计

Yeti的紧凑性和高效性使其特别适合资源受限的场景。小型实验室可以在单张GPU上训练多模态蛋白质模型，进行功能蛋白质设计、突变效应预测等研究。同时，Yeti的生成能力为蛋白质工程开辟了新的可能性：

**功能导向设计** —— 结合功能注释数据，可以训练条件生成模型，产生具有特定酶活性、结合亲和力或稳定性的蛋白质。

**序列-结构协同优化** —— 传统的蛋白质设计往往固定序列优化结构，或固定结构优化序列。Yeti支持真正的协同生成，同时探索序列和结构空间。

**多模态推理** —— 除了序列和结构，未来可以整合更多模态（如动力学信息、实验数据），构建更全面的蛋白质理解模型。

## 与现有工作的对比

蛋白质结构表示学习领域已有ESM3、FoldToken等重要工作。Yeti的独特之处在于明确针对生成任务进行优化。ESM3虽然功能强大，但其分词器主要服务于重建和表示学习；Yeti则从设计之初就考虑了生成需求，通过流匹配目标和端到端训练确保分词器与生成任务的兼容性。

此外，Yeti的极简设计哲学也值得称道。在AI领域，模型规模往往与性能正相关，但Yeti证明通过巧妙的算法设计，小模型也能实现大效果。这对于推动AI for Science的普及具有重要意义。

## 结语

Yeti为蛋白质多模态AI提供了一个高效、紧凑且生成友好的结构表示方案。它的成功不仅体现在技术指标上，更在于展示了面向生成任务设计分词器的重要性。随着蛋白质设计从预测走向创造，像Yeti这样的基础组件将发挥越来越关键的作用。