章节 01
导读:IMUG-Bench——统一多模态模型交错图文对话能力的评测新基准
核心观点:IMUG-Bench是首个系统评估统一多模态模型(UMMs)在多轮交错图文对话中表现的评测基准,揭示主流模型生成侧存在显著曝光偏差,并验证了测试时缩放策略的有效性。
来源信息:
- 原作者:arXiv论文团队
- 来源平台:arXiv
- 发布时间:2026年6月8日
- 原文链接:http://arxiv.org/abs/2606.09169v1
该基准填补了现有评测在动态多轮交互场景的空白,为UMMs的发展提供关键参考。