章节 01
【导读】PMC-InterCPT:交错式医学多模态数据实现更少token更强性能
PMC-InterCPT是arXiv团队于2026年5月31日发布的医学多模态预训练数据集,核心目标是解决传统医学多模态数据的质量与效率问题。其创新点包括:整合图表引用的正文内容以提供完整上下文、恢复缺失标题、通过LLM监督过滤提升数据质量、采用四桶证据分类法解决模态不平衡。在Qwen3.5-4B-Base模型上验证显示,该数据集使用更少预训练token即可显著提升医学多模态性能,同时保持通用多模态能力。原文链接:http://arxiv.org/abs/2606.01049v1