# 多模态大语言模型评测基准全景综述：200+基准的系统梳理与未来展望

> 本文系统综述了200多个多模态大语言模型（MLLM）的评测基准，涵盖感知理解、认知推理、特定领域应用、关键能力与多模态扩展等五大维度，为MLLM的系统性评估提供了全面的研究框架与方向指引。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-26T12:13:58.000Z
- 最近活动: 2026-05-26T12:23:24.104Z
- 热度: 154.8
- 关键词: 多模态大语言模型, MLLM, 评测基准, benchmark, 视觉问答, 跨模态推理, 幻觉检测, 多模态评估, AI评测, 大模型评测
- 页面链接: https://www.zingnex.cn/forum/thread/200
- Canonical: https://www.zingnex.cn/forum/thread/200
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：swordlidev
- 来源平台：github
- 原始标题：Evaluation-Multimodal-LLMs-Survey
- 原始链接：https://github.com/swordlidev/Evaluation-Multimodal-LLMs-Survey
- 来源发布时间/更新时间：2026-05-26T12:13:58Z

## 原作者与来源\n\n- 原作者/维护者：swordlidev（腾讯）\n- 来源平台：GitHub\n- 原始标题：Evaluation-Multimodal-LLMs-Survey\n- 原始链接：https://github.com/swordlidev/Evaluation-Multimodal-LLMs-Survey\n- 来源发布时间/更新时间：2026-05-26T12:13:58Z\n\n## 研究背景与动机\n\n多模态大语言模型（Multimodal Large Language Models, MLLMs）正迅速成为学术界和工业界的研究热点。这类模型能够同时处理文本、图像、视频、音频等多种模态的数据，在视觉问答、图像理解、跨模态推理等任务上展现出惊人的性能。然而，随着模型能力的不断扩展，如何全面、客观地评估这些模型的真实能力，成为制约领域发展的关键瓶颈。\n\n现有的评测工作往往分散在不同任务、不同数据集上，缺乏系统性的整合与梳理。研究人员和开发者难以快速了解当前有哪些可用的评测基准、这些基准覆盖了哪些能力维度、以及不同基准之间的关联与差异。正是基于这一痛点，腾讯联合北京大学、新加坡国立大学、东南大学、南京大学的研究团队，推出了这份涵盖200多个MLLM评测基准的系统性综述。\n\n## 评测基准的五维分类体系\n\n该综述将现有的MLLM评测基准划分为五大核心维度，构建了清晰的分类框架：\n\n### 1. 感知与理解（Perception & Understanding）\n\n这一维度关注模型对视觉内容的基础感知能力，包括：\n\n- **综合评测基准**：如ChEF、UniBench、MME、MM-Vet等，提供多维度能力评估\n- **细粒度感知**：涵盖视觉定位、目标检测与识别，如CODE、Flickr30k Entities、Visual7W等\n- **图像理解**：包括多图像理解（Memenos、MileBench、MuirBench）和隐含关系理解（II-Bench、ImplicitAVE）\n- **图像质量与美学感知**：如AesBench、UNIAA、DesignProbe等评测审美与设计理解能力\n\n### 2. 认知与推理（Cognition & Reasoning）\n\n这一维度评估模型的高阶认知能力：\n\n- **通用推理**：包括视觉关系推理（MMRel、GSR-BENCH）、上下文依赖推理（CODIS、CFMM）\n- **思维链推理**：如Visual CoT、M3CoT等评测多步推理能力\n- **知识推理**：涵盖基于知识的视觉问答（KB-VQA、FVQA、OK-VQA）和知识编辑（MMEdit、MIKE、VLKEB）\n- **智能问答**：包括关系类比推理（RAVEN、MARVEL）、数学推理（MathVista、MathVerse、NPHardEval4V）\n- **多学科问答**：如M3Exam、CMMMU、MMMU等覆盖多学科知识的综合评测\n\n### 3. 特定领域应用（Specific Domains）\n\n针对特定应用场景的专项评测：\n\n- **文本丰富的视觉问答**：如OCRBench、P2GB、TextVQA、TextCaps等\n- **文档问答**：包括SPDocVQA、MPDocVQA、InfographicVQA、DUDE、MM-NIAH等\n- **图表推理**：如ChartQA、ChartX、ChartBench、SciGraphQA、MMC-Benchmark等\n- **网页理解**：Web2Code、VisualWebBench、Plot2Code等评测网页到代码的转换能力\n- **决策智能体**：VisualAgentBench、EgoPlan-Bench、PCA-EVAL、OpenEQA、OSWorld等评测具身智能能力\n- **移动智能体**：Mobile-Eval、Ferret-UI、CRAB等评测移动设备操作能力\n\n### 4. 关键能力（Key Capabilities）\n\n聚焦模型的核心能力维度：\n\n- **对话能力**：长上下文理解（Mile-Bench、MMNeedle、MLVU）、指令遵循（CoIN、MIA-Bench、DEMON、VisIT-Bench）\n- **幻觉问题**：如POPE、GAVIE、HaELM、M-HalDetect、Bingo、HallusionBench、VHTest等评测和缓解幻觉\n- **可信度**：包括鲁棒性（MAD-Bench、MMR、MM-SpuBench）、自我感知（MM-SAP）、安全性（MM-SafetyBench、JailBreakV-28K、MultiTrust、SHIELD、RTVLM）\n\n### 5. 其他模态扩展（Other Modalities）\n\n超越图像-文本对的其他模态：\n\n- **视频理解**：时序感知（MVBench、TimeIT、ViLMA、VITATECS）、细粒度理解（Inst-IT Bench）、长视频理解（MovieChat-1k、EgoSchema、Event-Bench、MLVU）、综合评测（Video-Bench、MMBench-Video、Video-MME、AutoEval-Video、MMWorld、WorldNet）\n- **音频理解**：Dynamic-SUPERB、MuChoMusic、AIR-Bench等评测音频-语言模型\n- **3D点云**：ScanQA、ScanReason、LAMM、SpatialRGPT、M3DBench等评测3D场景理解\n- **全模态**：MCUB、AVQA、MusicAVQA、MMT-Bench等评测多模态融合能力\n\n## 评测基准的发展趋势与洞察\n\n通过对200多个基准的系统梳理，综述揭示了以下几个重要趋势：\n\n**从单一能力到综合能力的演进**：早期的基准多聚焦于单一任务（如视觉问答），而近年来涌现的综合评测基准（如MME、MM-Vet、MMBench）能够同时评估模型的多维度能力，提供更全面的性能画像。\n\n**从静态到动态的转变**：传统基准多基于静态图像，而视频理解基准的快速增长反映了模型向时序推理、长上下文理解方向的演进。\n\n**从通用到垂直的深化**：除了通用能力评测，针对特定领域（医疗、自动驾驶、机器人、教育等）的专项基准不断涌现，推动模型在实际场景中的落地应用。\n\n**从性能到可信度的关注**：随着模型能力的提升，研究重心逐渐从"模型能做什么"转向"模型有多可靠"，幻觉检测、鲁棒性评测、安全性评估等成为新的研究热点。\n\n## 当前局限与未来方向\n\n综述也指出了现有评测方法的局限性：\n\n- **数据泄露问题**：许多基准的数据集被用于模型预训练，导致评测结果可能高估真实性能\n- **评测维度不完整**：某些关键能力（如因果推理、常识推理）的评测基准仍相对匮乏\n- **主观性挑战**：对于开放性生成任务，客观、自动化的评测仍面临挑战\n- **跨模态对齐**：如何准确评估模型在不同模态间的对齐与融合能力，仍需更精细的评测框架\n\n未来方向包括：构建动态更新的评测基准、开发更可靠的自动评测指标、加强跨模态能力的系统评测、以及建立模型能力与安全性的联合评估框架。\n\n## 实用价值与社区贡献\n\n该综述不仅是一份学术文献，更是一个实用的资源汇总。GitHub仓库持续维护，整合了所有提及基准的论文链接、代码仓库和数据集入口，为研究人员提供了"一站式"的MLLM评测资源导航。对于正在开发或评估多模态模型的团队而言，这份综述能够显著降低调研成本，帮助快速定位适合自身需求的评测工具。\n\n## 结语\n\n多模态大语言模型的发展离不开科学、全面的评测体系。这份涵盖200多个基准的综述，为领域提供了宝贵的系统性视角。随着新模型、新能力的不断涌现，评测基准也将持续演进。研究者呼吁社区共同关注评测方法的创新，以评测驱动模型的健康发展，推动多模态AI向更可靠、更实用的方向迈进。