正文

PMC-InterCPT：交错式医学多模态预训练数据，用更少 token 实现更强医学理解

PMC-InterCPT 通过整合图表引用正文、恢复缺失标题、四桶证据分类重采样，在 Qwen3.5-4B-Base 上实现医学多模态性能提升，同时减少预训练 token 使用量。

PMC-InterCPT医学多模态持续预训练交错数据四桶分类LLM监督过滤医学VLM数据质量

发布时间 2026/05/31 14:38最近活动 2026/06/02 11:30预计阅读 3 分钟

PMC-InterCPT：交错式医学多模态预训练数据，用更少 token 实现更强医学理解

章节 01

【导读】PMC-InterCPT：交错式医学多模态数据实现更少token更强性能

PMC-InterCPT是arXiv团队于2026年5月31日发布的医学多模态预训练数据集，核心目标是解决传统医学多模态数据的质量与效率问题。其创新点包括：整合图表引用的正文内容以提供完整上下文、恢复缺失标题、通过LLM监督过滤提升数据质量、采用四桶证据分类法解决模态不平衡。在Qwen3.5-4B-Base模型上验证显示，该数据集使用更少预训练token即可显著提升医学多模态性能，同时保持通用多模态能力。原文链接：http://arxiv.org/abs/2606.01049v1

章节 02

背景：医学多模态预训练的数据痛点

医学多模态模型依赖大规模图像-文本数据，但传统数据构建存在以下问题：

标题局限性：图表标题短、信息有限且依赖上下文，缺乏正文解释；
结构性噪声：自动提取引入缺失标题、残留标记、重复上下文等问题；
持续预训练需求：基础模型需更专业、高质量数据，噪声会干扰已学表示。

章节 03

方法：PMC-InterCPT的核心设计与处理流程

核心创新

整合图表引用的正文内容，形成交错图像-文本序列，模拟人类阅读论文的逻辑。

数据构建流程

标题恢复：为缺失标题的图像生成/恢复描述；
文本清理：去除残留标记、标准化格式；
交错重构：按原文顺序组织图像与引用文本，保持逻辑连贯；
LLM过滤：通过医学相关性与质量分类器双重筛选。

模态平衡解决方案

引入四桶证据分类法（视觉主导、文本主导、平衡、弱关联），实施模态感知重采样，避免某类证据过度主导。

章节 04

实验验证：质量与效率的双赢结果

实验设置

基础模型：Qwen3.5-4B-Base；
训练流程：持续预训练（CPT）+监督微调（SFT）；
对比基线：原始数据源池。

核心结果

更少token更优性能：使用更少CPT token超越原始数据源池；
医学性能提升：医学图像理解、术语使用、临床推理能力显著改善；
通用性能保持：未损害通用多模态能力；
互补性：数据质量与模态平衡产生协同效应。

章节 05

应用场景与部署建议

适用场景

医学多模态模型训练；
医学教育（生成教学材料）；
临床辅助（支持决策系统）；
医学研究（文献分析与知识挖掘）。

使用建议

CPT阶段：用于建立医学知识基础；
SFT阶段：结合指令数据微调；
进一步筛选：根据应用场景优化数据。

伦理考量

隐私保护：确保患者信息脱敏；
准确性：严格把控医学信息正确性；
责任边界：明确模型辅助定位。

章节 06

局限与未来发展方向

当前局限

语言局限：主要基于英语文献；
模态局限：以图像-文本为主，视频、音频等模态不足；
领域覆盖：部分医学专科覆盖不够。

未来方向

多语言扩展：纳入其他语言医学文献；
多模态扩展：整合病理切片、基因组等数据；
动态更新：建立持续更新机制；
细粒度标注：增加详细医学标注。

章节 07

结论：数据质量优先的医学多模态构建范例

PMC-InterCPT代表医学多模态数据构建的重要进展，通过上下文整合、质量过滤与模态平衡，实现数据质量与效率双重提升。核心启示：持续预训练中数据质量比数量更重要。四桶分类法为模态不平衡问题提供新思路，可推广至其他多模态领域。该数据集为医学AI发展提供高质量数据范例，推动领域进步。