Zing 论坛

正文

Fundus-R1:基于公开数据训练的知识感知眼底图像分析多模态大模型

本文介绍Fundus-R1模型,这是首个仅使用公开数据集训练的眼底图像分析多模态大模型,通过RAG生成知识感知推理链和过程奖励增强的RLVR技术,在多个基准上超越了通用模型。

Fundus-R1眼底图像分析多模态大模型RAG强化学习医学AI公开数据训练知识感知推理
发布时间 2026/04/09 22:55最近活动 2026/04/10 10:18预计阅读 1 分钟
Fundus-R1:基于公开数据训练的知识感知眼底图像分析多模态大模型
1

章节 01

【导读】Fundus-R1:首个公开数据训练的知识感知眼底多模态大模型

本文介绍Fundus-R1模型,这是首个仅使用公开数据集训练的眼底图像分析多模态大模型,通过RAG生成知识感知推理链和过程奖励增强的RLVR技术,在多个基准上超越了通用模型。该模型解决了现有眼底MLLM依赖内部数据的壁垒问题,为医疗AI民主化提供新路径。

2

章节 02

【背景】眼底诊断的重要性与现有方法的数据壁垒

眼底影像检查是眼科疾病筛查核心手段,但专业医生数量不足导致覆盖率低。现有高性能眼底MLLM依赖内部数据集,阻碍研究可复现性;公开数据集仅94%有图像级标签,缺乏细粒度标注,限制模型训练。

3

章节 03

【方法】Fundus-R1的两大技术创新

  1. RAG驱动推理链:提取视觉特征→检索医学知识库→构建从特征到诊断的推理链,提供可解释依据和监督信号;2. 过程奖励增强RLVR:评估推理链逻辑连贯性、知识正确性,激励生成严谨可靠的诊断报告。
4

章节 04

【证据】实验验证与消融实验结果

在FunBench、Omni-Fundus、GMAI-Fundus三个基准上显著超越Qwen2.5-VL等基线;消融实验显示RAG与过程奖励结合效果最佳,小知识库也能提升性能。模型在分类准确率、推理合理性、泛化能力上均有优势。

5

章节 05

【结论】Fundus-R1的意义与影响

打破"高性能依赖专有数据"认知,提供开源可复现基线加速眼科AI进步;推动医疗AI民主化,让更多机构参与研发,惠及更广泛患者群体。

6

章节 06

【未来方向】局限与后续研究计划

局限:公开数据多样性不足,推理链与专家差距;未来方向:扩展知识库覆盖罕见病,人机协作优化推理链,推广到OCT和UWF等模态分析。