正文

simple-evals-mm：面向视觉语言模型的多模态评估框架，助力VLM性能评测标准化

介绍llm-jp团队开发的simple-evals-mm项目，这是一个基于OpenAI simple-evals扩展的多模态评估框架，支持20+基准测试，涵盖AI2D、MMMU、ScienceQA等权威数据集，为Vision-Language Models提供标准化评测方案。

视觉语言模型VLM评测多模态AI基准测试JAMMEvalOpenAIGeminiQwen-VLAI评估开源框架

发布时间 2026/04/06 08:44最近活动 2026/04/06 08:50预计阅读 3 分钟

simple-evals-mm：面向视觉语言模型的多模态评估框架，助力VLM性能评测标准化

章节 01

simple-evals-mm：面向视觉语言模型的标准化多模态评测框架导读

simple-evals-mm是llm-jp团队开发的开源项目，基于OpenAI simple-evals扩展，专为视觉语言模型（VLM）提供标准化评测方案。该框架支持20+权威基准测试，涵盖AI2D、MMMU、ScienceQA等多模态数据集，同时是JAMMEval评测项目的重要组成部分，旨在解决VLM评估中客观全面性不足的问题。

章节 02

项目背景：VLM快速发展下的评测挑战

随着GPT-4V、Gemini、Qwen-VL等VLM的快速发展，传统文本模型评估框架已无法满足多模态评测需求，现有工具缺乏统一性和可扩展性。在此背景下，llm-jp团队推出simple-evals-mm，作为OpenAI simple-evals的多模态扩展版本，为VLM性能评测提供系统化支持。

章节 03

核心功能：多维度多语言的评测能力覆盖

多模态基准测试集

整合ChartQA（图表问答）、AI2D（科学图表理解）、MMMU（多学科多模态理解）等20+权威英文数据集，覆盖图表文档理解、科学推理、细粒度识别、真实场景等维度。

日文场景支持

集成CC-OCR、JDocQA、JMMMU等JAMMEval系列日文基准，填补日文VLM评测空白。

文本能力保持

保留GPQA、MATH、MMLU等经典文本测试，全面考察模型基础语言能力。

章节 04

技术架构：灵活兼容与高效分析工具

多后端模型兼容

支持OpenAI（GPT-4o、GPT-5.1）、Google Gemini、开源模型（InternVL、Qwen-VL等），实现不同VLM的公平对比。

现代化环境管理

采用uv（Rust编写的高速包管理器），通过uv sync快速配置环境，uv run执行脚本确保一致性。

结果分析工具

内置可视化脚本生成对比图表，交互式Web查看器支持模型输出与图像并排查看，便于错误模式分析。

章节 05

使用指南：简洁流程与结构化结果输出

CLI工具流程

列出可用模型：uv run python src/simple_evals_mm/simple_evals.py --list-models
列出评测任务：uv run python src/simple_evals_mm/simple_evals.py --list-evals
执行评测：指定模型和基准，支持重复运行获取统计显著性。

数据集管理

大部分基准自动从HuggingFace下载，特殊数据集提供准备指南。

结果格式

以JSONL保存三层结果：单样本详细输出、聚合分数、统计摘要（均值、标准差等）。

章节 06

学术价值与社区贡献：推动标准化与开放协作

项目发表相关论文（arXiv:2604.00909），阐述JAMMEval基准构建理念与评测方法论。采用MIT许可证开源，提供CONTRIBUTING.md指导社区贡献。同时指出局限性：模型输出评估灵活性限制可能导致强模型性能低估，体现学术严谨性。

章节 07

总结与展望：VLM评测标准化的未来方向

simple-evals-mm是VLM评测向标准化、系统化发展的重要一步，为VLM研发提供可靠基础设施。未来将进一步扩展新兴评测集覆盖，支持更多模型后端，并持续创新评测方法论，是VLM研究、开发与应用专业人士值得关注的开源项目。