正文

VisionFoundry：通过合成图像教授视觉语言模型视觉感知能力

VisionFoundry是一个任务感知的合成数据生成流程，仅需任务名称即可自动生成问题、答案和图像，构建的VisionFoundry-10K数据集在视觉感知基准上实现显著提升。

视觉语言模型合成数据生成视觉感知文本到图像生成视觉问答数据增强多模态学习

发布时间 2026/04/11 01:48最近活动 2026/04/13 11:22预计阅读 3 分钟

章节 01

【导读】VisionFoundry：用合成数据提升视觉语言模型的视觉感知能力

VisionFoundry是一个任务感知的合成数据生成流程，仅需任务名称即可自动生成问题、答案和图像，构建的VisionFoundry-10K数据集在视觉感知基准上实现显著提升，为视觉语言模型（VLM）的感知能力提升提供了创新的数据驱动方法。

章节 02

研究背景：VLM视觉感知能力的瓶颈与解决思路

视觉语言模型（VLMs）在多种任务上表现强大，但在空间理解、视角识别等视觉感知任务中仍有不足。核心原因是自然图像数据集为低级视觉技能提供的监督信号有限，特定感知任务的相关信号易被复杂场景淹没。研究提出关键问题：能否通过针对性合成监督数据解决这些弱点？理想的合成数据应从任务关键词（如"深度排序"）生成，无需参考图像或人工标注，以提供可扩展、可控的训练数据来源。

章节 03

方法：VisionFoundry系统架构与10K数据集构建

VisionFoundry系统架构

该流程核心创新是仅需任务名称输入，自动生成多模态训练数据，包含四步骤：

大语言模型（LLM）生成任务相关的问题、答案和文本到图像（T2I）提示；
T2I模型（如Stable Diffusion）根据提示合成图像；
专有VLM验证图像与问答对的一致性；
过滤不一致样本，保留高质量图像-问题-答案三元组。

VisionFoundry-10K数据集

基于上述流程构建，包含10,000个三元组，涵盖深度排序、视角识别等10个VLM表现不佳的视觉感知任务，每个任务约1000样本。生成过程中LLM负责场景描述和问题变体，T2I生成视觉内容，VLM验证器控制质量。

章节 04

实验证据：性能提升与关键因素验证

主要实验结果

使用VisionFoundry-10K训练的模型在视觉感知基准上显著提升：

MMVP（多模态视觉感知基准）：性能提升7%；
CV-Bench-3D（3D视觉理解基准）：性能提升10%；且随训练数据量增加，性能持续提升（规模扩展行为），与自然数据训练的收益递减形成对比。

消融实验分析

任务特定合成监督是关键：通用合成数据提升效果远小于任务针对性数据；
问题多样性重要：限制LLM生成问题类型会降低模型泛化能力；
VLM验证器不可或缺：移除验证步骤会导致数据质量下降，性能降低。

章节 05

结论与启示：合成数据对VLM训练的价值

结论

VisionFoundry通过任务感知的合成数据生成，无需参考图像或人工标注即可生成高质量训练数据，有效提升VLM的视觉感知能力，为VLM训练开辟新方向。

对VLM训练的启示

自然数据在特定感知技能上监督信号不足，合成数据可针对性补充；
合成数据成本低、可控性强、可扩展，是VLM训练的有前景路径；
LLM（高层语义规划）与T2I模型（视觉内容生成）的组合为数据生成提供新可能。

章节 06

局限性与未来研究方向

局限性

依赖专有VLM进行一致性验证，可能因验证器自身不足引入偏差；
T2I模型生成的图像质量在复杂3D场景和精细空间关系表达上仍需提升。

未来工作

探索更强大的验证机制（如多验证器交叉验证）；
扩展到更多复杂推理的视觉任务；
研究与真实数据的混合训练策略；
优化合成数据生成效率，减少成本。