章节 01
【导读】Fundus-R1:首个公开数据训练的知识感知眼底多模态大模型
本文介绍Fundus-R1模型,这是首个仅使用公开数据集训练的眼底图像分析多模态大模型,通过RAG生成知识感知推理链和过程奖励增强的RLVR技术,在多个基准上超越了通用模型。该模型解决了现有眼底MLLM依赖内部数据的壁垒问题,为医疗AI民主化提供新路径。
正文
本文介绍Fundus-R1模型,这是首个仅使用公开数据集训练的眼底图像分析多模态大模型,通过RAG生成知识感知推理链和过程奖励增强的RLVR技术,在多个基准上超越了通用模型。
章节 01
本文介绍Fundus-R1模型,这是首个仅使用公开数据集训练的眼底图像分析多模态大模型,通过RAG生成知识感知推理链和过程奖励增强的RLVR技术,在多个基准上超越了通用模型。该模型解决了现有眼底MLLM依赖内部数据的壁垒问题,为医疗AI民主化提供新路径。
章节 02
眼底影像检查是眼科疾病筛查核心手段,但专业医生数量不足导致覆盖率低。现有高性能眼底MLLM依赖内部数据集,阻碍研究可复现性;公开数据集仅94%有图像级标签,缺乏细粒度标注,限制模型训练。
章节 03
章节 04
在FunBench、Omni-Fundus、GMAI-Fundus三个基准上显著超越Qwen2.5-VL等基线;消融实验显示RAG与过程奖励结合效果最佳,小知识库也能提升性能。模型在分类准确率、推理合理性、泛化能力上均有优势。
章节 05
打破"高性能依赖专有数据"认知,提供开源可复现基线加速眼科AI进步;推动医疗AI民主化,让更多机构参与研发,惠及更广泛患者群体。
章节 06
局限:公开数据多样性不足,推理链与专家差距;未来方向:扩展知识库覆盖罕见病,人机协作优化推理链,推广到OCT和UWF等模态分析。