正文

Fundus-R1：基于公开数据训练的知识感知眼底图像分析多模态大模型

本文介绍Fundus-R1模型，这是首个仅使用公开数据集训练的眼底图像分析多模态大模型，通过RAG生成知识感知推理链和过程奖励增强的RLVR技术，在多个基准上超越了通用模型。

Fundus-R1眼底图像分析多模态大模型RAG强化学习医学AI公开数据训练知识感知推理

发布时间 2026/04/09 22:55最近活动 2026/04/10 10:18预计阅读 1 分钟

章节 01

【导读】Fundus-R1：首个公开数据训练的知识感知眼底多模态大模型

本文介绍Fundus-R1模型，这是首个仅使用公开数据集训练的眼底图像分析多模态大模型，通过RAG生成知识感知推理链和过程奖励增强的RLVR技术，在多个基准上超越了通用模型。该模型解决了现有眼底MLLM依赖内部数据的壁垒问题，为医疗AI民主化提供新路径。

章节 02

眼底影像检查是眼科疾病筛查核心手段，但专业医生数量不足导致覆盖率低。现有高性能眼底MLLM依赖内部数据集，阻碍研究可复现性；公开数据集仅94%有图像级标签，缺乏细粒度标注，限制模型训练。

章节 03

RAG驱动推理链：提取视觉特征→检索医学知识库→构建从特征到诊断的推理链，提供可解释依据和监督信号；2. 过程奖励增强RLVR：评估推理链逻辑连贯性、知识正确性，激励生成严谨可靠的诊断报告。

章节 04

在FunBench、Omni-Fundus、GMAI-Fundus三个基准上显著超越Qwen2.5-VL等基线；消融实验显示RAG与过程奖励结合效果最佳，小知识库也能提升性能。模型在分类准确率、推理合理性、泛化能力上均有优势。

章节 05

打破"高性能依赖专有数据"认知，提供开源可复现基线加速眼科AI进步；推动医疗AI民主化，让更多机构参与研发，惠及更广泛患者群体。

章节 06

局限：公开数据多样性不足，推理链与专家差距；未来方向：扩展知识库覆盖罕见病，人机协作优化推理链，推广到OCT和UWF等模态分析。