正文

HealthGPT：统一医学视觉理解与生成的大规模多模态医疗模型

浙江大学团队提出的HealthGPT模型，通过异构知识适配技术统一了医学图像理解和生成能力，在ICML 2025获得Spotlight认可。

医学AI多模态模型视觉语言模型ICML医学影像图像生成浙江大学医疗大模型

发布时间 2026/05/08 05:41最近活动 2026/05/08 10:07预计阅读 2 分钟

章节 01

导读：HealthGPT——统一医学视觉理解与生成的多模态医疗模型

浙江大学团队提出HealthGPT模型，通过异构知识适配技术首次在单一框架内实现医学图像理解与生成的统一，该成果获得ICML 2025 Spotlight认可。HealthGPT解决了传统医学AI分离式设计的资源浪费和性能瓶颈问题，为医疗场景提供高效的多模态解决方案。

章节 02

研究背景与挑战

医学AI领域存在理解医学影像与生成医学图像的矛盾需求，传统分离式模型无法共享知识，导致资源浪费和性能瓶颈。如何在统一框架下融合视觉理解与生成能力，成为亟待解决的关键问题。

章节 03

核心技术创新：异构知识适配与统一框架

异构知识适配机制

跨模态对齐：建立视觉特征与医学概念的精准映射
层次化知识融合：从像素级到语义级的多层次整合
动态知识检索：自适应调用相关知识

统一理解-生成框架

采用统一Transformer架构，通过任务提示和注意力机制切换完成双任务，实现知识共享、数据效率提升和语义一致性保证。

大规模医学预训练

基于X光、CT等多模态数据集，采用对比学习与生成式学习目标组合预训练。

章节 04

模型能力与应用场景

医学影像理解

病灶检测与定位
疾病分类与诊断
影像报告生成
视觉问答

医学图像生成

文本到图像合成
图像编辑与修复
数据增强
多模态转换

统一交互接口

支持自然语言交互，降低临床使用门槛。

章节 05

实验验证与性能表现

理解任务：在分类、分割等任务上达到或超过专门化模型水平
生成任务：图像视觉质量与医学准确性达临床可用水平
跨任务迁移：通过知识迁移提升少样本学习性能

章节 06

开源贡献与社区影响

团队开源代码、预训练权重、数据集工具及文档，推动医学AI技术普及，助力研究者构建应用。

章节 07

当前局限与未来方向

局限

数据隐私限制训练规模
生成图像需临床验证
专业覆盖不足

未来方向

联邦学习隐私保护训练
细粒度知识注入
多模态数据深度融合
增强可解释性

章节 08

总结与展望

HealthGPT是医学多模态大模型的重要里程碑，ICML 2025 Spotlight认可反映学术界关注。未来有望在辅助诊断、医学教育等领域发挥关键作用，惠及患者与医疗工作者。