章节 01
【导读】SymbolBench:多模态大语言模型视觉符号理解的专业评测基准
清华大学知识工程实验室推出SymbolBench,这是一个专门评估多模态大语言模型(MLLMs)在离散视觉符号识别、解析和推理能力的综合性基准测试,填补了当前评测体系在结构化视觉理解方面的空白。该基准遵循全面性、层次性、实用性设计原则,涵盖多种符号类型与多维度任务,揭示了当前主流模型在符号理解上的能力分层现象,并为研究社区提供改进方向。
正文
清华大学知识工程实验室推出的SymbolBench是一个专门评估多模态大语言模型在离散视觉符号识别、解析和推理能力的综合性基准测试,填补了当前评测体系在结构化视觉理解方面的空白。
章节 01
清华大学知识工程实验室推出SymbolBench,这是一个专门评估多模态大语言模型(MLLMs)在离散视觉符号识别、解析和推理能力的综合性基准测试,填补了当前评测体系在结构化视觉理解方面的空白。该基准遵循全面性、层次性、实用性设计原则,涵盖多种符号类型与多维度任务,揭示了当前主流模型在符号理解上的能力分层现象,并为研究社区提供改进方向。
章节 02
随着GPT-4V、Gemini等MLLMs快速发展,现有评测多聚焦自然图像理解(如物体识别、场景描述),但对离散视觉符号(数学公式、流程图、电路图等)的评估薄弱。这些符号具有高度结构化和抽象性,要求模型理解元素间的空间关系、逻辑层次和语义关联,SymbolBench正是为填补这一空白而生。
章节 03
SymbolBench设计遵循三大原则:
章节 04
数据集构建采用真实(学术论文、教材)与合成数据结合,覆盖多种视觉样式(手绘、软件生成、扫描);标注包含符号边界框、结构化结果(LaTeX、JSON)及任务答案;评测指标差异化:识别用精确率/召回率/F1,解析用树编辑距离,推理用准确率。
章节 05
初步评测显示主流模型能力分层明显:
章节 06
章节 07
SymbolBench作为首个离散视觉符号评测基准,揭示了当前MLLMs的能力边界,为模型改进指明方向。随着多模态AI渗透加深,结构化视觉信息理解将成为实用价值的重要标准,SymbolBench是这一方向的关键一步。