章节 01
【导读】VisionFoundry:用合成数据提升视觉语言模型的视觉感知能力
VisionFoundry是一个任务感知的合成数据生成流程,仅需任务名称即可自动生成问题、答案和图像,构建的VisionFoundry-10K数据集在视觉感知基准上实现显著提升,为视觉语言模型(VLM)的感知能力提升提供了创新的数据驱动方法。
正文
VisionFoundry是一个任务感知的合成数据生成流程,仅需任务名称即可自动生成问题、答案和图像,构建的VisionFoundry-10K数据集在视觉感知基准上实现显著提升。
章节 01
VisionFoundry是一个任务感知的合成数据生成流程,仅需任务名称即可自动生成问题、答案和图像,构建的VisionFoundry-10K数据集在视觉感知基准上实现显著提升,为视觉语言模型(VLM)的感知能力提升提供了创新的数据驱动方法。
章节 02
视觉语言模型(VLMs)在多种任务上表现强大,但在空间理解、视角识别等视觉感知任务中仍有不足。核心原因是自然图像数据集为低级视觉技能提供的监督信号有限,特定感知任务的相关信号易被复杂场景淹没。研究提出关键问题:能否通过针对性合成监督数据解决这些弱点?理想的合成数据应从任务关键词(如"深度排序")生成,无需参考图像或人工标注,以提供可扩展、可控的训练数据来源。
章节 03
该流程核心创新是仅需任务名称输入,自动生成多模态训练数据,包含四步骤:
基于上述流程构建,包含10,000个三元组,涵盖深度排序、视角识别等10个VLM表现不佳的视觉感知任务,每个任务约1000样本。生成过程中LLM负责场景描述和问题变体,T2I生成视觉内容,VLM验证器控制质量。
章节 04
使用VisionFoundry-10K训练的模型在视觉感知基准上显著提升:
章节 05
VisionFoundry通过任务感知的合成数据生成,无需参考图像或人工标注即可生成高质量训练数据,有效提升VLM的视觉感知能力,为VLM训练开辟新方向。
章节 06