正文

OCTCube-M：面向视网膜与全身疾病的三维多模态OCT基础模型

OCTCube-M是一个基于3D光学相干断层扫描（OCT）的多模态基础模型，在跨队列、跨设备和跨模态验证中展现出卓越的疾病预测能力，为眼科AI诊断开辟了新路径。

OCTFoundation ModelRetinal DiseaseMedical AIMultimodalComputer VisionDeep Learning

发布时间 2026/05/13 04:10最近活动 2026/05/13 04:19预计阅读 2 分钟

章节 01

【导读】OCTCube-M：三维多模态OCT基础模型的突破性进展

OCTCube-M是华盛顿大学团队开发的基于3D光学相干断层扫描（OCT）的多模态基础模型，在跨队列、跨设备和跨模态验证中展现卓越疾病预测能力。该模型不仅在视网膜疾病诊断上达到先进水平，还能预测跨器官的全身性疾病，已开源并为眼科AI诊断开辟新路径。

章节 02

光学相干断层扫描（OCT）是现代眼科诊断核心工具，可无创获取视网膜高分辨率3D图像，但从复杂3D数据提取临床信息是AI应用的关键挑战。OCTCube-M的出现解决这一问题，由华盛顿大学团队开发并在GitHub开源，为眼科AI研究和临床应用提供宝贵资源。

章节 03

OCTCube-M预训练使用超26,685个3D OCT体数据（含162万张2D图像），采用视觉Transformer架构结合Flash Attention提升效率。项目基于PyTorch 2.1.0和CUDA 11.8实现，支持Docker部署，降低使用门槛。

章节 04

视网膜疾病：在8种常见疾病（AMD、DME、POAG、DR、ERM、CRAO/CRVO、VD、RNV）预测中表现最佳，支持多任务分类提高诊断效率；2. 跨器官能力：可预测肺结节恶性程度、心脏射血分数降低、糖尿病和高血压等全身性疾病；3. 多模态变体：OCTCube-IR实现OCT与红外图像检索，OCTCube-EF整合多模态预测GA生长速度。

章节 05

快速入门：下载预训练权重、示例数据，通过Jupyter Notebook推理；- 数据准备：支持RETFound等预训练模型初始化，提供公开数据集处理脚本；- 开源资源：模型权重发布于Hugging Face，包含原始模型、双模态模型及多任务分类模型，提供完整代码并计划发布显著性图生成工具。

章节 06

临床意义：自动化高精度筛查减轻医生负担，跨设备兼容性利于商业化部署，OCT可能成为全身健康评估组成部分；未来规划：开发三模态OCTCube-EF模型、OCTCube-IR推理代码、显著性图生成代码以增强实用性和可解释性。

章节 07

OCTCube-M代表医学影像AI基础模型在眼科领域的最新进展，通过大规模预训练、创新多模态架构和严格跨域验证，推动视网膜疾病诊断边界，展示基础模型在医学影像领域的巨大潜力，有望成为眼科AI诊断重要基础设施。