正文

多模态大语言模型评测基准全景综述：200+基准的系统梳理与未来展望

本文系统综述了200多个多模态大语言模型（MLLM）的评测基准，涵盖感知理解、认知推理、特定领域应用、关键能力与多模态扩展等五大维度，为MLLM的系统性评估提供了全面的研究框架与方向指引。

多模态大语言模型MLLM评测基准benchmark视觉问答跨模态推理幻觉检测多模态评估AI评测大模型评测

发布时间 2026/05/26 20:13最近活动 2026/05/26 20:23预计阅读 3 分钟

章节 01

【导读】多模态大语言模型评测基准全景综述：200+基准的系统梳理与未来展望

标题：多模态大语言模型评测基准全景综述：200+基准的系统梳理与未来展望来源：腾讯联合北京大学、新加坡国立大学、东南大学、南京大学团队（原作者/维护者：swordlidev），发布于GitHub（链接：https://github.com/swordlidev/Evaluation-Multimodal-LLMs-Survey），发布时间2026-05-26。核心观点：本文系统综述200+多模态大语言模型（MLLM）评测基准，涵盖感知理解、认知推理、特定领域应用、关键能力与多模态扩展五大维度，为MLLM系统性评估提供全面研究框架与方向指引。

章节 02

研究背景与动机

多模态大语言模型（MLLMs）是当前学术与工业界热点，能处理文本、图像等多模态数据，在视觉问答等任务表现优异。但现有评测分散，缺乏系统性整合，研究人员难以快速了解可用基准及差异。基于此痛点，腾讯联合多所高校推出本综述。

章节 03

评测基准的五维分类体系

综述构建五维分类框架：

感知与理解：综合评测（如ChEF、UniBench）、细粒度感知（如CODE）、图像理解（如Memenos）、图像质量与美学（如AesBench）；
认知与推理：通用推理（如MMRel）、思维链推理（如Visual CoT）、知识推理（如KB-VQA）、智能问答（如RAVEN）、多学科问答（如CMMMU）； 3.特定领域应用：文本丰富视觉问答（如TextVQA）、文档问答（如SPDocVQA）、图表推理（如ChartQA）、网页理解（如Web2Code）、决策智能体（如VisualAgentBench）、移动智能体（如Mobile-Eval）； 4.关键能力：对话能力（如Mile-Bench）、幻觉问题（如POPE）、可信度（如MAD-Bench）； 5.其他模态扩展：视频理解（如MVBench）、音频理解（如Dynamic-SUPERB）、3D点云（如ScanQA）、全模态（如MCUB）。

章节 04

评测基准的发展趋势与洞察

发展趋势： -从单一能力到综合能力：早期聚焦单一任务，近年综合基准（如MME）提供全面评估； -从静态到动态：传统基于静态图像，视频理解基准增长反映时序推理需求； -从通用到垂直：特定领域（医疗、自动驾驶等）专项基准涌现； -从性能到可信度：幻觉检测、鲁棒性等成为热点。

章节 05

当前局限与未来方向

现有局限： -数据泄露：部分基准数据用于预训练，高估性能； -评测维度不完整：因果、常识推理等基准匮乏； -主观性挑战：开放性生成任务难客观自动评测； -跨模态对齐：需更精细框架评估模态融合能力。

未来方向：构建动态更新基准、开发可靠自动指标、加强跨模态系统评测、建立能力与安全性联合评估框架。

章节 06

实用价值与社区贡献

本综述是实用资源汇总，GitHub仓库持续维护，整合所有基准的论文、代码、数据集入口，为研究者提供一站式导航，显著降低调研成本，帮助快速定位适合的评测工具。

章节 07

结语

多模态大语言模型发展依赖科学全面的评测体系，本综述提供系统性视角。随着模型能力提升，评测基准需持续演进。呼吁社区关注评测创新，以评测驱动模型健康发展，推动多模态AI更可靠实用。

多模态大语言模型评测基准全景综述：200+基准的系统梳理与未来展望

【导读】多模态大语言模型评测基准全景综述：200+基准的系统梳理与未来展望

研究背景与动机

评测基准的五维分类体系

评测基准的发展趋势与洞察

当前局限与未来方向

实用价值与社区贡献

结语

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统