Zing 论坛

正文

多模态大语言模型评测基准全景综述:200+基准的系统梳理与未来展望

本文系统综述了200多个多模态大语言模型(MLLM)的评测基准,涵盖感知理解、认知推理、特定领域应用、关键能力与多模态扩展等五大维度,为MLLM的系统性评估提供了全面的研究框架与方向指引。

多模态大语言模型MLLM评测基准benchmark视觉问答跨模态推理幻觉检测多模态评估AI评测大模型评测
发布时间 2026/05/26 20:13最近活动 2026/05/26 20:23预计阅读 3 分钟
多模态大语言模型评测基准全景综述:200+基准的系统梳理与未来展望
1

章节 01

【导读】多模态大语言模型评测基准全景综述:200+基准的系统梳理与未来展望

标题:多模态大语言模型评测基准全景综述:200+基准的系统梳理与未来展望 来源:腾讯联合北京大学、新加坡国立大学、东南大学、南京大学团队(原作者/维护者:swordlidev),发布于GitHub(链接:https://github.com/swordlidev/Evaluation-Multimodal-LLMs-Survey),发布时间2026-05-26。 核心观点:本文系统综述200+多模态大语言模型(MLLM)评测基准,涵盖感知理解、认知推理、特定领域应用、关键能力与多模态扩展五大维度,为MLLM系统性评估提供全面研究框架与方向指引。

2

章节 02

研究背景与动机

多模态大语言模型(MLLMs)是当前学术与工业界热点,能处理文本、图像等多模态数据,在视觉问答等任务表现优异。但现有评测分散,缺乏系统性整合,研究人员难以快速了解可用基准及差异。基于此痛点,腾讯联合多所高校推出本综述。

3

章节 03

评测基准的五维分类体系

综述构建五维分类框架:

  1. 感知与理解:综合评测(如ChEF、UniBench)、细粒度感知(如CODE)、图像理解(如Memenos)、图像质量与美学(如AesBench);
  2. 认知与推理:通用推理(如MMRel)、思维链推理(如Visual CoT)、知识推理(如KB-VQA)、智能问答(如RAVEN)、多学科问答(如CMMMU); 3.特定领域应用:文本丰富视觉问答(如TextVQA)、文档问答(如SPDocVQA)、图表推理(如ChartQA)、网页理解(如Web2Code)、决策智能体(如VisualAgentBench)、移动智能体(如Mobile-Eval); 4.关键能力:对话能力(如Mile-Bench)、幻觉问题(如POPE)、可信度(如MAD-Bench); 5.其他模态扩展:视频理解(如MVBench)、音频理解(如Dynamic-SUPERB)、3D点云(如ScanQA)、全模态(如MCUB)。
4

章节 04

评测基准的发展趋势与洞察

发展趋势: -从单一能力到综合能力:早期聚焦单一任务,近年综合基准(如MME)提供全面评估; -从静态到动态:传统基于静态图像,视频理解基准增长反映时序推理需求; -从通用到垂直:特定领域(医疗、自动驾驶等)专项基准涌现; -从性能到可信度:幻觉检测、鲁棒性等成为热点。

5

章节 05

当前局限与未来方向

现有局限: -数据泄露:部分基准数据用于预训练,高估性能; -评测维度不完整:因果、常识推理等基准匮乏; -主观性挑战:开放性生成任务难客观自动评测; -跨模态对齐:需更精细框架评估模态融合能力。

未来方向:构建动态更新基准、开发可靠自动指标、加强跨模态系统评测、建立能力与安全性联合评估框架。

6

章节 06

实用价值与社区贡献

本综述是实用资源汇总,GitHub仓库持续维护,整合所有基准的论文、代码、数据集入口,为研究者提供一站式导航,显著降低调研成本,帮助快速定位适合的评测工具。

7

章节 07

结语

多模态大语言模型发展依赖科学全面的评测体系,本综述提供系统性视角。随着模型能力提升,评测基准需持续演进。呼吁社区关注评测创新,以评测驱动模型健康发展,推动多模态AI更可靠实用。