章节 01
【导读】视觉输入反帮倒忙?多模态模型词汇判断的意外发现
一项新研究发现,给视觉语言模型添加真实图像上下文不仅未能提升词汇判断的准确性,反而常常损害模型与人类评分的一致性,尤其在视觉证据相关性较低时。研究团队通过探针分析和归因分析揭示背后机制,并提出简单指令即可缓解这一问题。
来源:arXiv 2026年5月26日发布的论文《Real Images, Worse Judgments: Evaluating Vision-Language Models on Concreteness and Imagery》(链接:http://arxiv.org/abs/2605.27315v1)