Zing 论坛

正文

RetinalGPT:基于大视觉语言模型的视网膜临床对话助手开源

亚利桑那州立大学研究团队开源了RetinalGPT数据构建流程,该项目利用大视觉语言模型为眼底图像生成临床偏好对齐的多轮对话数据,支持多种视网膜数据集的处理与对话生成。

RetinalGPT大视觉语言模型视网膜影像医学AI对话数据构建眼底疾病筛查多模态模型临床偏好对齐
发布时间 2026/04/21 07:45最近活动 2026/04/21 07:49预计阅读 2 分钟
RetinalGPT:基于大视觉语言模型的视网膜临床对话助手开源
1

章节 01

RetinalGPT开源:基于大视觉语言模型的视网膜临床对话助手数据构建流程

亚利桑那州立大学研究团队开源RetinalGPT数据构建流程,利用大视觉语言模型生成临床偏好对齐的视网膜影像多轮对话数据,支持多种主流视网膜数据集处理,旨在解决传统AI辅助诊断系统缺乏交互能力的问题,为临床对话助手训练提供高质量数据。

2

章节 02

项目背景与临床意义

视网膜疾病早期筛查诊断对预防视力丧失至关重要。传统AI辅助诊断系统仅输出单一分类结果或分割掩膜,缺乏与临床医生的交互能力,难以解释诊断依据或回答追问。大视觉语言模型(LVLMs)在医学影像理解领域潜力巨大,但通用模型缺乏足够临床知识和专业术语表达能力。RetinalGPT项目应运而生,旨在构建针对视网膜影像的临床偏好对话助手,通过高质量多轮对话数据集训练,使模型理解临床医生提问习惯、诊断逻辑和偏好表达。

3

章节 03

技术架构与核心设计

RetinalGPT核心创新在于数据层面优化:

  1. 描述构建器:为APTOS、EyeQ、IDRID、MICCAI、Messidor、ODIR、RFMiD、UK Biobank等主流视网膜数据集实现统一描述构建器,将异构标注(疾病标签、影像质量评分等)转换为统一自然语言描述。
  2. 对话生成管道:提供两种模式——脚本优先模式(定制生成脚本如ins_UK.py)和管道优先模式(统一入口run_conversation_pipeline.py,支持跨数据集标准化处理)。
  3. 异步API调用:instruction_gen_async.py模块实现异步调用,支持纯文本/图像条件生成、批量处理,提升大规模数据生成效率。
4

章节 04

数据输出格式与应用场景

生成的对话数据以JSONL格式存储,每条记录包含唯一标识符(id)、影像路径(image)、多轮对话内容(conversations)。输出可进一步合并、清洗、对齐或转换为嵌套JSON用于模型微调。项目专注数据构建和对话生成,非完整端到端训练代码库,需配合LLaVA等基础框架进行模型训练。

5

章节 05

环境依赖与部署建议

RetinalGPT基于LLaVA v0环境规范构建,推荐部署流程:

  1. 配置标准LLaVA运行环境
  2. 安装RetinalGPT额外依赖
  3. 使用conda创建Python 3.10虚拟环境
  4. 通过requirements.txt安装项目依赖 分层依赖管理策略保证与上游项目兼容性,避免重复打包LLaVA训练栈。
6

章节 06

应用价值与未来展望

RetinalGPT开源价值:

  • 标准化数据处理:统一描述构建器降低多中心研究门槛
  • 临床偏好对齐:模拟真实交互场景,训练更符合临床需求的AI助手
  • 可解释性增强:多轮对话提升AI系统透明度和可信度
  • 研究复现性:开源流程支持实验复现与改进 未来有望扩展到皮肤镜、病理切片、放射影像等其他医学影像模态,推动医学AI从"黑盒分类器"向"可交互临床助手"转变。