章节 01
XTC-Bench:统一多模态模型跨任务一致性评测的新突破
本文介绍了XTC-Bench——一个基于场景图驱动的评测框架,通过CCTA指标首次系统评估统一多模态模型在理解与生成任务间的语义一致性。核心发现是:高准确率不等于高一致性,架构统一也不代表表示统一,这为模型开发提供了关键洞察。
正文
XTC-Bench通过场景图驱动的评测框架和CCTA指标,首次系统评估了统一多模态模型在理解与生成任务间的语义一致性,发现高准确率不等于高一致性。
章节 01
本文介绍了XTC-Bench——一个基于场景图驱动的评测框架,通过CCTA指标首次系统评估统一多模态模型在理解与生成任务间的语义一致性。核心发现是:高准确率不等于高一致性,架构统一也不代表表示统一,这为模型开发提供了关键洞察。
章节 02
统一多模态模型(uMMs)承诺实现知识共享、效率提升和语义一致性,但现有评测独立评估理解与生成能力,未检验两者语义对齐。跨任务一致性指模型对同一视觉概念的内部表示在理解(如图像描述)和生成(如文生图)任务中保持一致,缺乏一致性会导致模型仅表面匹配训练数据,实用性大打折扣。
章节 03
XTC-Bench基于场景图(含对象、属性、关系的结构化语义表示)构建双向评测:从场景图生成测试图像(理解任务)和文本提示(生成任务),对比两者语义事实。CCTA指标在原子事实层面(对象存在、属性正确、关系准确)进行连续评分,隔离内部一致性与独立任务准确率,避免混淆。
章节 04
在9个模型上的评估显示:1. 部分高准确率模型一致性低;2. 一致性由学习目标耦合、跨模态对齐机制、训练数据多样性主导,而非架构是否统一;3. 对象一致性较高,属性中等,关系最低(空间/交互关系最难统一)。
章节 05
表示共享方式中,部分共享+强对齐目标平衡最佳;训练策略上,多任务联合训练、课程学习更易促进一致性,预训练+微调需加一致性正则化;完全共享可能牺牲单项性能,分离表示依赖对齐质量。
章节 06
需超越孤立任务指标,用XTC-Bench显式测一致性;设计显式跨模态对齐目标(如对比学习);关注关系理解(关系一致性是弱点);采用层次化表示学习分解对象、属性、关系。
章节 07
当前局限:场景图覆盖静态概念,缺乏动态/抽象场景;评测粒度限于原子事实;领域泛化不足。未来方向:扩展动态场景图,细粒度像素级对齐,交互式多轮对话评测。
章节 08
XTC-Bench揭示统一多模态模型的‘统一’需显式测量,而非依赖架构假设。只有通过跨任务一致性评测,才能确保模型建立真正共享的语义表示,推动领域从表面统一走向实质统一。