正文

视觉语言模型在自然阅读中未必全面超越纯文本模型的人类对齐度

研究发现多模态预训练并未在自然阅读任务中带来统一的全局优势，语言内部表征仍是关键因素。VLM的优势仅在选择性场景（如包含强视觉语义内容的句子）中显现。

视觉语言模型人类对齐自然阅读多模态预训练fMRI眼动追踪语言表征

发布时间 2026/05/28 01:59最近活动 2026/05/28 12:50预计阅读 3 分钟

章节 01

【导读】视觉语言模型在自然阅读中未必全面超越纯文本模型的人类对齐度

标题：视觉语言模型在自然阅读中未必全面超越纯文本模型的人类对齐度核心观点：研究发现多模态预训练并未在自然阅读任务中带来统一的全局优势，语言内部表征仍是关键因素；VLM的优势仅在包含强视觉语义内容的句子等选择性场景中显现。来源信息：

原作者/维护者：arXiv authors
来源平台：arxiv
原始标题：VLMs May Not Globally Enhance Human Alignment over LLMs During Natural Reading
原始链接：http://arxiv.org/abs/2605.28818v1
发布时间：2026-05-27T17:59:34Z

章节 02

研究背景：多模态训练的迷思

大型语言模型（LLM）已成为模拟人类语言处理的有用计算模型。随着视觉语言模型（VLM）的发展，一个自然的问题浮现：视觉语言学习是否能让模型的文本表征在自然阅读过程中更像人类？直觉上，接触视觉信息的模型可能对语言有更深入的理解，因为人类语言本身就根植于多模态经验。然而，这一假设是否成立仍需严格的实证检验。

章节 03

实验设计：严格隔离变量的关键

本研究的核心方法论创新在于严格隔离变量：

纯文本设置：VLM和LLM均在纯文本条件下测试，排除在线视觉输入或跨模态融合的混淆因素，差异仅归因于训练历史。
严格匹配的模型对：比较架构和规模相近的LLM-VLM对，确保公平性。
多模态人类数据：使用包含全脑皮层fMRI反应和同步眼动追踪扫视的人类自然阅读数据集作为对齐基准。

章节 04

核心发现：多模态预训练无全局优势，语言内部表征仍是关键

研究主要发现挑战常见假设：

无全局优势：整体层面，VLM未表现出比对应LLM更强的人类对齐度，仅凭多模态训练历史不能保证所有文本理解任务更接近人类。
语言内部表征关键：实验结果表明，语言内部表征的质量仍是建模人类文本处理的核心因素，视觉训练增益并非自动转化为更好的文本理解能力。

章节 05

选择性优势：视觉语义丰富句子中VLM表现更佳

尽管无全局优势，VLM存在选择性优势场景：

视觉语义丰富句子：当句子包含更强视觉语义内容（如描述具体物体、场景或动作）时，VLM对齐度更佳。
多证据支持：该发现同时得到fMRI神经对齐和眼动模式对齐的支持，增强结论可靠性。这表明多模态预训练的贡献是选择性的，仅在特定语言理解任务发挥作用。

章节 06

理论与实践启示：模型选择需基于任务特征

方法论启示：建立了严格控制条件的计算机模拟框架，区分训练历史与在线处理影响，强调多模态评估必要性。 理论意义：视觉知识并非自动迁移，多模态训练优势依赖下游任务特征，人类语言处理核心可能更多依赖语言内部结构。 实践应用：纯文本任务不应默认选VLM，需根据任务是否涉及视觉语义决定；多模态训练成本高，纯文本应用无需投资VLM；多样化文本场景可动态选择或组合LLM与VLM。

章节 07