Zing 论坛

正文

CMML:上下文驱动的缺失模态学习框架助力稳健医学诊断

本文介绍CMML框架,通过级联残差Transformer自编码器和可学习上下文token,解决医学诊断中多模态数据缺失问题,在皮肤病变、眼病和脑膜瘤三个数据集上均超越现有最优方法。

多模态学习缺失模态医学诊断Transformer对比学习自编码器皮肤病变眼底疾病
发布时间 2026/05/25 23:44最近活动 2026/05/26 14:51预计阅读 3 分钟
CMML:上下文驱动的缺失模态学习框架助力稳健医学诊断
1

章节 01

导读:CMML框架助力稳健医学诊断

本文介绍Context-driven Missing-Modality Learning(CMML)框架,针对医学诊断中多模态数据缺失问题,通过级联残差Transformer自编码器(CRTA)和可学习上下文token等创新设计,解决模态缺失挑战。该框架在皮肤病变(Derm7pt)、眼病(ODIR)和脑膜瘤(MEN)三个数据集上均超越现有最优方法。

原作者与来源

  • 原作者/维护者:arXiv authors
  • 来源平台:arxiv
  • 原始标题:Context-driven Missing-Modality Learning for Robust Medical Diagnosis with Image-Tabular Data
  • 原始链接:http://arxiv.org/abs/2605.25968v1
  • 来源发布时间/更新时间:2026-05-25T15:44:26Z
2

章节 02

医学诊断中的模态缺失困境与现有方法局限

在现代医疗实践中,多模态数据(医学影像+临床表格)融合可提升诊断准确性,但现实中因设备、费用、依从性等问题存在随机模态缺失。

现有方法的局限性:

  1. 直接丢弃缺失模态:损失宝贵信息,降低诊断准确率;
  2. 简单插值或合成:无法捕捉模态间复杂依赖,合成质量低;
  3. 模态无关表示学习:牺牲模态特异性,鲁棒性不足
3

章节 03

CMML框架:两阶段处理流程

CMML框架核心思想是利用数据集总体语义信息指导缺失模态合成与跨模态对齐,采用两阶段策略:

  1. 模态合成阶段:合成缺失模态的表示;
  2. 语义对齐阶段:将所有模态表示对齐到统一空间。

该顺序设计简化了优化难度,使各阶段专注核心任务

4

章节 04

CRTA组件:级联残差Transformer自编码器的创新设计

模态合成的核心组件是Cascade Residual Transformer-based Autoencoder(CRTA),其关键特性包括:

  1. 可学习上下文Token:作为数据集级语义先验,通过注意力机制与可用模态交互,推断缺失模态特征;
  2. 级联残差结构:逐步提炼特征,残差连接确保梯度有效传播;
  3. 模态特定记忆库:存储典型模态模式,为合成提供参考
5

章节 05

实例自适应语义对齐:统一多模态表示空间

合成缺失模态后,需将异构表示统一到语义空间:

  1. 实例自适应语义参考:将CRTA输出的多模态表示注入上下文token,转化为针对当前患者的特定知识,作为对齐指导;
  2. 类别感知对比精炼:通过对比学习让同类样本靠近、异类远离,增强表示的判别性
6

章节 06

实验验证:三个医学数据集上的性能提升

研究者在三个数据集验证CMML有效性:

  • Derm7pt(皮肤病变):提升1.26%平均AUC;
  • ODIR(眼病):提升0.97% AUC;
  • MEN(脑膜瘤分级):提升1.32%性能。

所有数据集均获稳定提升,医学领域1%的提升具有显著临床价值

7

章节 07

技术启示与未来方向

CMML的技术启示:

  1. 可学习上下文token展示数据集级语义先验的价值;
  2. 分阶段策略简化复杂任务优化;
  3. 实例自适应连接全局模式与局部特征;
  4. 类别感知对比学习增强表示判别性。

未来方向:扩展到更多模态(基因组、电子病历文本),应用于自动驾驶、多传感器融合等领域