# DISCO：多模态蛋白质共设计模型实现化学的DNA编码

> DISCO是一种创新的多模态生成模型，能够同时协同设计蛋白质序列和三维结构，支持与小分子、DNA、RNA等多种生物分子的条件生成，在酶设计和药物研发领域展现出卓越性能。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-13T21:40:09.000Z
- 最近活动: 2026-05-13T21:48:21.970Z
- 热度: 141.9
- 关键词: 蛋白质设计, 扩散模型, 多模态生成, 酶工程, 结构生物学, 药物研发, 生物信息学, 深度学习
- 页面链接: https://www.zingnex.cn/forum/thread/disco-dna-b7bad894
- Canonical: https://www.zingnex.cn/forum/thread/disco-dna-b7bad894
- Markdown 来源: ingested_event

---

# DISCO：多模态蛋白质共设计模型实现化学的DNA编码

蛋白质设计是合成生物学和药物研发领域的核心挑战。传统方法往往采用分步策略——先生成蛋白质骨架结构，再通过逆折叠预测氨基酸序列——这种串行流程难以保证序列与结构的最优匹配。DISCO（Diffusion for Sequence-structure CO-design）模型的出现打破了这一局限，它首次实现了蛋白质序列与三维结构的同步协同设计，为生物分子工程开辟了全新的可能性。

## 技术突破：从分步到协同

DISCO 的核心创新在于其多模态协同生成机制。与传统方法不同，DISCO 能够同时生成蛋白质序列和三维结构，并且可以将这一过程与任意生物分子（包括小分子配体、DNA 和 RNA）进行条件关联和共折叠。这种联合生成方式使得序列层面的目标可以指导结构生成，反之亦然，实现了真正的双向优化。

该模型在 179 种配体的评估中取得了最先进的计算机模拟性能，在 178/179 的评估指标上表现最佳，同时在小分子、DNA 和 RNA 条件生成任务上也展现出卓越能力。这一成绩标志着蛋白质设计领域的重要里程碑。

## 催化酶设计：从概念到实践

DISCO 最具突破性的应用体现在新型催化酶的设计上。研究团队将模型应用于全新催化反应的设计，仅提供反应中间体作为条件输入——不预设催化残基，也不依赖模板骨架——成功设计出具有新颖活性位点几何结构的不同血红素酶。

这些设计的酶能够催化自然界中不存在的卡宾转移反应，包括烯烃环丙烷化、螺环丙烷化、B-H 键插入和 C(sp³)-H 键插入等多种反应类型。更令人振奋的是，顶级设计酶的活性超过了经过工程改造的天然酶。通过对选定设计进行随机诱变，研究团队进一步获得了活性提升四倍的变体，证明了这些设计酶具有良好的可进化性。

## 技术架构与实现细节

DISCO 基于扩散模型架构，采用 Hydra 配置系统管理实验参数。项目提供了两种实验预设方案：

**designable 预设**：启用熵自适应温度缩放和序列-结构双模态噪声引导，引导模型生成更可能在外部结构预测器下正确折叠的样本，代价是结构多样性有所降低。

**diverse 预设**：禁用噪声引导和熵自适应温度，模型从其学习分布中更自由地采样，产生更大的结构多样性，但平均可设计性较低。

模型还支持两种计算强度预设：fast 模式使用 100 步扩散和 2 轮循环，速度提升约 4 倍，仅牺牲约 10% 的协同设计能力，适合原型设计和大规模筛选；max 模式使用 200 步扩散和 4 轮循环，提供论文中的完整质量。

## 内存优化与硬件适配

DISCO 默认采用 DeepSpeed4Science EvoformerAttention 实现内存高效注意力计算，显著降低 GPU 内存使用，支持更长序列的推理。该功能需要 NVIDIA CUTLASS 库和 Ampere 架构或更新的 GPU（如 A100、L40S、H100、H200、B100、B200）。对于不支持 CUTLASS 的环境，模型也提供了朴素注意力实现作为回退方案。

项目使用 uv 进行依赖管理，支持灵活的 PyTorch 后端配置。对于 AMD GPU 用户，需要移除 DeepSpeed 依赖并禁用 EvoformerAttention。

## Studio-179：配体条件设计的基准测试

为系统评估配体条件蛋白质设计性能，研究团队构建了 Studio-179 基准数据集，包含 170 种天然和非天然配体以及 9 种多配体组合，涵盖催化、制药、发光和传感等多个应用领域。该库覆盖了从刚性分子（如持久性有机污染物四氯二苯并对二恶英）到大型柔性分子（如含 50 个重原子的辅酶 Q10），以及金属和金属簇（如 [4Fe-4S] 铁硫簇）等多样化的化学和几何特性。

评估指标采用协同设计能力（co-designability）：如果蛋白质骨架和所有配体质心在 Chai-1 重折叠后的 RMSD 小于 2 埃，则认为该设计具有协同设计能力。这一指标评估的是生成序列是否编码了预期的结构和结合模式，而非仅仅评估生成结构本身的合理性。

## 应用场景与实验复现

DISCO 支持多种条件生成场景：

**无条件生成**：从零开始生成蛋白质序列和结构，支持 70、100、200、300 个残基长度的评估。

**配体条件生成**：给定小分子配体，生成具有互补结合位点的蛋白质序列和结构，无需模板结构或种子序列。项目提供了血红素 B、NDI、PLP、甲状腺素和华法林等代表性配体的输入配置。

**核酸条件生成**：基于 DNA 或 RNA 序列设计能够形成复合物的蛋白质链，支持 26 核苷酸 RNA 序列和双链 DNA 的条件生成。

所有实验的原始生成样本和结果均可在 Hugging Face 上获取，便于研究者进行对比和验证。

## 科学意义与未来展望

DISCO 的发布标志着蛋白质设计从"结构优先"向"序列-结构协同"范式的转变。这种多模态生成方法不仅提高了设计的成功率，更重要的是拓展了可设计蛋白质的功能空间——特别是那些传统方法难以触及的新型催化活性。

在药物研发领域，DISCO 为靶向特定小分子配体的蛋白质设计提供了强大工具；在合成生物学领域，它为构建具有全新功能的生物催化系统指明了方向。随着模型的进一步优化和社区基准测试的推进，我们有理由期待蛋白质设计将迎来新一轮的突破。

## 结语

DISCO 代表了人工智能与结构生物学交叉领域的最新进展。它不仅仅是一个技术工具，更是一种新的科学思维方式——通过多模态协同生成，我们能够以前所未有的精度和效率探索蛋白质的功能空间。对于从事蛋白质工程、酶设计、药物研发的研究者来说，DISCO 无疑是一个值得关注和深入研究的强大平台。
