# SQUALL：融合组织病理学与空间分子数据的多模态基础模型

> 本文介绍 SQUALL，一个拥有5.55亿参数的多模态基础模型，通过整合组织学图像与空间转录组数据，实现从病理图像预测分子表达，为癌症研究和临床诊断提供新工具。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-01T11:01:09.000Z
- 最近活动: 2026-06-01T11:21:43.974Z
- 热度: 159.7
- 关键词: 多模态模型, 空间转录组, 计算病理学, 癌症研究, 基础模型, 生物标志物, 精准医疗, 深度学习
- 页面链接: https://www.zingnex.cn/forum/thread/squall
- Canonical: https://www.zingnex.cn/forum/thread/squall
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**: OswaldZhang
- **来源平台**: GitHub
- **原始标题**: SQUALL-release: Integrating Histology with Spatial Molecular Programs Using a Multimodal Foundation Model
- **原始链接**: https://github.com/OswaldZhang/SQUALL-release
- **发布时间**: 2026年6月1日

## 研究背景与挑战

在癌症研究和精准医疗领域，组织病理学检查（Histology）和空间分子分析（Spatial Transcriptomics）是两种核心的诊断技术。病理学图像提供了组织形态学的直观信息，而空间转录组则揭示了基因表达的空间分布模式。然而，这两种数据来源长期以来处于相对独立的状态：病理医生通过显微镜观察切片做出诊断，而分子生物学家则通过测序技术分析基因表达。如何将这两种互补的信息源有效整合，一直是计算病理学领域的重要挑战。

传统的计算方法往往分别处理图像和基因表达数据，缺乏能够同时理解组织形态和分子状态的统一模型。这种分离的处理方式限制了从病理图像直接推断分子特征的能力，也阻碍了基于形态学特征预测临床预后的研究进展。

## SQUALL 模型架构

SQUALL（Spatial QUery and Learning for Histology）是一个拥有5.55亿参数的多模态基础模型，专门设计用于整合组织学图像与空间分子程序数据。该模型的核心创新在于通过大规模预训练，学习病理图像与基因表达之间的深层对应关系，使得仅通过常规的病理切片就能预测出潜在的分子表达模式。

为了实现大规模多模态预训练，研究团队构建了名为 histMol 的庞大语料库。该数据集包含来自33种不同组织类型、涵盖12种空间转录组平台的17.6亿个空间位点（spots）和区间（bins）。这种跨组织、跨平台的多样化数据为模型提供了丰富的学习素材，使其能够捕捉不同组织类型中形态与分子状态的普遍关联规律。

模型采用分阶段的自监督训练策略。第一阶段专注于学习图像特征表示，第二阶段引入空间转录组数据进行跨模态对齐训练，第三阶段则在特定任务上进行微调。这种渐进式训练方法确保了模型既能学习到通用的形态-分子关联，又能适应特定的下游应用场景。

## 核心能力与技术创新

SQUALL 的核心能力在于从组织形态中恢复与基因表达相关的潜在程序。研究团队的基本假设是：常规病理切片中蕴含的微观形态特征，与空间转录组数据中的基因表达模式存在可学习的对应关系。通过直接学习这种对齐关系，模型能够将嵌入在组织形态中的基因表达相关信息提取出来。

在技术实现上，SQUALL 支持大规模虚拟生物标志物分析（Virtual Biomarker Profiling）。模型可以扩展到15,757个基因的表达预测，覆盖人类基因组的大部分编码区域。这种规模的预测能力使得研究人员能够从单张病理切片中获得接近全转录组水平的分子信息，大大降低了空间转录组测序的成本和技术门槛。

模型还具备识别与预后特征相关的空间微环境（Spatial Niches）的能力。例如，研究团队利用 SQUALL 成功识别出与三级淋巴结构（Tertiary Lymphoid Structures, TLS）成熟相关的空间模式。TLS 是肿瘤免疫微环境中的重要结构，其成熟度与患者的免疫治疗响应密切相关。

## 临床应用验证

SQUALL 在多个癌症类型的临床研究中展现了强大的预测能力。在乳腺癌研究中，研究团队分析了来自198个切片的325,112个空间位点数据，利用 SQUALL 的表示学习发现了与肿瘤侵袭相关的分子轨迹。这一发现为理解乳腺癌的进展机制提供了新的视角。

在卵巢癌研究中，模型基于58例患者的 VisiumHD 高分辨率切片数据，识别出与复发相关的免疫排斥微环境（Immune-excluded Niche）。这种空间微环境的特征与患者预后密切相关，可能为临床风险分层提供新的生物标志物。

在预后预测任务中，SQUALL 在793例患者的数据上取得了显著的性能提升。相比传统的基于病理图像的预后模型，SQUALL 整合了分子层面的信息，能够捕捉到形态学特征背后的生物学异质性。在铂类化疗耐药性预测任务中，模型在213例患者的数据集上展现出更加均衡的预测性能，这对于指导临床治疗决策具有重要价值。

## 技术实现与开源贡献

SQUALL 的开源代码库提供了完整的模型实现和推理流程。代码库包含多个功能模块：

**预处理模块（preprocess）**：提供组织切片图像的标准化处理流程，包括图像配准、质量控制、区域分割等功能。

**预训练模块（pretrain）**：包含分阶段预训练的完整代码，支持从大规模数据中学习多模态表示。

**微调模块（finetune）**：针对特定任务（如预后预测、生物标志物分析）的微调脚本和配置。

**推理模块（Fig2_inference）**：提供预训练模型的推理接口，支持从单张病理切片生成虚拟基因表达谱。

**聚类分析模块（Fig3_clustering）**：包含空间微环境识别和聚类分析的工具，用于发现与临床表型相关的空间模式。

**教程与示例（SQUALL_Tutorial）**：提供详细的使用教程和示例代码，帮助研究人员快速上手。

模型实现基于 PyTorch 深度学习框架，主要使用 Jupyter Notebook 和 Python 进行开发。代码库还包含 Attention-based Multiple Instance Learning（ABMIL）等先进的深度学习组件，用于处理高分辨率病理图像。

## 研究意义与行业影响

SQUALL 代表了多模态空间表示学习在计算病理学领域的重要突破。通过建立组织形态与分子程序之间的桥梁，该模型为以下研究方向开辟了新的可能性：

**低成本分子分型**：传统的空间转录组测序成本高昂且技术复杂，SQUALL 使得仅通过常规病理切片就能获得近似的分子信息，有望大幅降低精准医疗的技术门槛。

**回顾性队列研究**：大量的历史病理切片资源可以通过 SQUALL 进行分子层面的重新分析，挖掘之前无法获取的生物学信息。

**实时诊断辅助**：在病理诊断过程中，模型可以提供分子层面的辅助信息，帮助病理医生做出更准确的判断。

**药物响应预测**：通过预测肿瘤微环境中的分子特征，模型有望辅助预测患者对特定治疗方案的响应。

## 局限性与未来方向

尽管 SQUALL 展现了强大的能力，研究团队也指出了当前版本的一些局限性。首先，模型的预测精度仍然受限于训练数据的覆盖范围，对于罕见癌症类型或特殊组织类型的预测可能存在偏差。其次，空间转录组数据本身的分辨率限制也影响了模型捕捉精细空间模式的能力。

未来的研究方向包括：整合更高分辨率的空间组学数据（如单细胞分辨率）、扩展到更多癌症类型和正常组织、结合临床信息构建综合预后模型，以及开发针对特定治疗靶点的预测模块。

## 总结

SQUALL 项目展示了多模态基础模型在生物医学领域的巨大潜力。通过巧妙地整合组织病理学图像与空间转录组数据，该模型不仅推进了计算病理学的技术边界，更为精准医疗和癌症研究提供了实用的新工具。随着空间组学技术的持续发展和计算方法的不断进步，类似 SQUALL 的多模态模型有望在临床实践中发挥越来越重要的作用。
