# 图神经网络在结直肠癌淋巴结转移预测中的组织微环境建模研究

> 巴塞罗那自治大学的一项学士论文研究，探索利用图神经网络（GNN）对pT1期结直肠癌的组织空间微环境进行建模，以预测淋巴结转移风险。本文解析其图构建策略、GNN架构设计，以及医学影像AI的前沿应用。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-06-08T22:16:03.000Z
- 最近活动: 2026-06-08T22:18:52.617Z
- 热度: 162.9
- 关键词: 图神经网络, GNN, 结直肠癌, 病理图像分析, 淋巴结转移预测, 图注意力网络, GAT, 图卷积网络, GCN, 层次化池化, 计算病理学, 医学影像AI, PyTorch Geometric, 组织微环境
- 页面链接: https://www.zingnex.cn/forum/thread/geo-github-enricferrera-tfg-colorectal-cancer-gnn
- Canonical: https://www.zingnex.cn/forum/thread/geo-github-enricferrera-tfg-colorectal-cancer-gnn
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者：** Enric Ferrera González
- **来源平台：** GitHub
- **原始标题：** tfg-colorectal-cancer-gnn
- **原始链接：** https://github.com/enricferrera/tfg-colorectal-cancer-gnn
- **发布时间：** 2026年6月8日
- **所属机构：** Universitat Autònoma de Barcelona（巴塞罗那自治大学）

---

## 研究背景：pT1结直肠癌的诊断困境

结直肠癌是全球第三大常见癌症，而pT1期（肿瘤侵犯黏膜下层但未穿透肌层）患者的淋巴结转移风险评估是临床决策的关键难点。传统病理诊断依赖显微镜下的人工观察，但组织微环境中细胞间的空间关系和相互作用信息往往难以被直观捕捉。

近年来，深度学习在医学影像分析中取得突破，但卷积神经网络（CNN）主要关注局部纹理特征，难以显式建模细胞间的拓扑关系。图神经网络（GNN）的出现为这一问题提供了新思路——将组织切片中的细胞或细胞核视为图的节点，它们之间的空间邻近关系视为边，从而在保留几何结构的同时学习高阶特征表示。

---

## 核心方法：从组织图像到图结构的转换

该研究的核心创新在于将组织病理图像转换为图表示的完整流程。研究团队开发了专门的图生成模块，支持多种邻接关系定义策略：

### 图连接策略

1. **欧几里得k-NN图**：基于空间距离连接每个节点的k个最近邻，适合捕捉局部细胞群落结构
2. **余弦相似度k-NN图**：基于特征向量的方向相似性构建边，将功能相似的细胞聚类
3. **半径图（Radius-based）**：在指定半径内连接所有节点，适合建模细胞间相互作用范围
4. **全连接图**：所有节点相互连接，提供最全局的信息但计算开销最大

### 特征提取与嵌入

研究使用深度学习模型提取细胞级特征（CLS token），并与临床元数据整合。`load_cls.py`模块负责管理患者级别的诊断映射（N0无转移 vs N1有转移），确保图级标签与患者预后一致。这种设计将微观细胞特征与宏观临床结果关联起来。

### GPU加速与并行优化

针对大规模组织切片数据，项目实现了GPU加速版本以处理大规模数据集，同时提供CPU并行版本保证通用兼容性。这种双轨设计使研究既能在高性能服务器上快速迭代，也能在普通工作站上复现结果。

---

## GNN架构：注意力机制与层次化池化

项目在`models_Graph.py`中实现了多种GNN架构，针对不同医学诊断场景进行了针对性设计：

### GATWeight_batch：带边属性的图注意力网络

传统的图注意力网络（GAT）仅基于节点特征计算注意力权重，而该研究的改进版本将边相似度作为额外属性融入消息传递过程。这意味着不仅考虑"哪些细胞在交流"，还考虑"它们有多相似"，使模型能够区分不同类型的细胞间相互作用。

### GCNWithAgg：全局聚合的图卷积网络

该架构在标准GCN基础上增加了全局均值池化层，将节点级表示聚合为患者级表示。这种设计直接对应临床需求——最终输出是患者是否有淋巴结转移，而非单个细胞的分类。

### 层次化池化（TopKPooling）

为捕捉多尺度组织结构，模型引入TopKPooling层，通过迭代选择重要节点构建粗化图。这模拟了病理学家从细胞到腺体再到组织的层次化观察过程，使网络能够识别跨尺度的病理模式。

---

## 训练策略：类别不平衡与交叉验证

医学数据常面临严重的类别不平衡——转移患者通常远少于无转移患者。项目通过`class_weights.py`模块计算基于患者分布的损失函数权重，使模型在训练时更关注少数类样本。

评估采用分层10折交叉验证（Stratified 10-Fold Cross-Validation），确保每折中转移与非转移患者的比例与总体一致。训练过程集成MLflow进行实验跟踪，所有超参数、指标和模型版本都被自动记录，便于结果复现和模型比较。

混合精度训练（AMP）进一步加速训练过程，在保持数值稳定性的同时充分利用现代GPU的Tensor Core。

---

## 可视化分析：t-SNE揭示特征空间结构

为理解模型学到了什么，项目开发了`t_SNE.py`可视化工具，生成分层的t-SNE投影图。这些可视化展示了：

- 特征空间是否形成了清晰的类别聚类
- 不同肿瘤区域的细胞在嵌入空间中的分布
- 模型是否成功区分了转移与非转移患者的组织模式

这种可解释性分析对医学AI至关重要——临床医生需要理解决策依据，而非盲目信任黑盒模型。

---

## 技术实现：现代Python数据科学生态

项目采用`uv`进行依赖管理和环境隔离，这是Python生态中新兴的现代化工具。相比传统pip+venv方案，uv提供更快的解析速度和更可靠的锁定机制。

代码组织遵循清晰的分层结构：`dataset/`处理数据加载，`graphs/`负责图构建，`models/`定义网络架构，`training/`实现训练循环，`visualization/`提供分析工具。这种模块化设计使每个组件可独立测试和复用。

---

## 临床意义与未来展望

该研究代表了计算病理学的前沿方向——从单纯依赖细胞形态学特征，转向显式建模细胞间的空间关系和组织微环境。如果这类方法在临床验证中证明有效，可能带来以下变革：

1. **辅助病理诊断**：为病理学家提供定量化的转移风险评分
2. **治疗方案优化**：识别可能受益于预防性淋巴结清扫的高风险患者
3. **新药研发**：基于组织微环境特征筛选临床试验受试者

当然，从研究原型到临床部署还有长路要走——需要更大规模的多中心验证、监管审批、以及与现有病理工作流的整合。但该研究展示的技术路径为这一领域提供了有价值的参考。

---

## 关键词

图神经网络, GNN, 结直肠癌, 病理图像分析, 淋巴结转移预测, 图注意力网络, GAT, 图卷积网络, GCN, 层次化池化, 计算病理学, 医学影像AI, PyTorch Geometric, 组织微环境
