Zing 论坛

正文

OCTCube-M:面向视网膜与全身疾病的三维多模态OCT基础模型

OCTCube-M是一个基于3D光学相干断层扫描(OCT)的多模态基础模型,在跨队列、跨设备和跨模态验证中展现出卓越的疾病预测能力,为眼科AI诊断开辟了新路径。

OCTFoundation ModelRetinal DiseaseMedical AIMultimodalComputer VisionDeep Learning
发布时间 2026/05/13 04:10最近活动 2026/05/13 04:19预计阅读 2 分钟
OCTCube-M:面向视网膜与全身疾病的三维多模态OCT基础模型
1

章节 01

【导读】OCTCube-M:三维多模态OCT基础模型的突破性进展

OCTCube-M是华盛顿大学团队开发的基于3D光学相干断层扫描(OCT)的多模态基础模型,在跨队列、跨设备和跨模态验证中展现卓越疾病预测能力。该模型不仅在视网膜疾病诊断上达到先进水平,还能预测跨器官的全身性疾病,已开源并为眼科AI诊断开辟新路径。

2

章节 02

背景:眼科AI诊断的挑战与OCTCube-M的诞生

光学相干断层扫描(OCT)是现代眼科诊断核心工具,可无创获取视网膜高分辨率3D图像,但从复杂3D数据提取临床信息是AI应用的关键挑战。OCTCube-M的出现解决这一问题,由华盛顿大学团队开发并在GitHub开源,为眼科AI研究和临床应用提供宝贵资源。

3

章节 03

模型架构与技术实现

OCTCube-M预训练使用超26,685个3D OCT体数据(含162万张2D图像),采用视觉Transformer架构结合Flash Attention提升效率。项目基于PyTorch 2.1.0和CUDA 11.8实现,支持Docker部署,降低使用门槛。

4

章节 04

性能证据:视网膜疾病与跨器官预测能力

  1. 视网膜疾病:在8种常见疾病(AMD、DME、POAG、DR、ERM、CRAO/CRVO、VD、RNV)预测中表现最佳,支持多任务分类提高诊断效率;2. 跨器官能力:可预测肺结节恶性程度、心脏射血分数降低、糖尿病和高血压等全身性疾病;3. 多模态变体:OCTCube-IR实现OCT与红外图像检索,OCTCube-EF整合多模态预测GA生长速度。
5

章节 05

使用指南与开源生态

  • 快速入门:下载预训练权重、示例数据,通过Jupyter Notebook推理;- 数据准备:支持RETFound等预训练模型初始化,提供公开数据集处理脚本;- 开源资源:模型权重发布于Hugging Face,包含原始模型、双模态模型及多任务分类模型,提供完整代码并计划发布显著性图生成工具。
6

章节 06

临床意义与未来规划

临床意义:自动化高精度筛查减轻医生负担,跨设备兼容性利于商业化部署,OCT可能成为全身健康评估组成部分;未来规划:开发三模态OCTCube-EF模型、OCTCube-IR推理代码、显著性图生成代码以增强实用性和可解释性。

7

章节 07

结语:OCTCube-M的潜力与贡献

OCTCube-M代表医学影像AI基础模型在眼科领域的最新进展,通过大规模预训练、创新多模态架构和严格跨域验证,推动视网膜疾病诊断边界,展示基础模型在医学影像领域的巨大潜力,有望成为眼科AI诊断重要基础设施。