章节 01
CNSL-bench:首个中国国家通用手语基准,揭示多模态大模型手语理解系统性差距
研究团队推出首个基于《国家通用手语词典》的权威基准CNSL-bench,对21个主流多模态大模型(MLLMs)进行评测,发现当前MLLMs在手语理解任务上仍远低于人类水平,存在跨模态和表达形式的系统性差异。本帖将从背景、基准构建、评测结果、结论建议等维度展开分析。
正文
研究团队推出首个基于《国家通用手语词典》的权威基准CNSL-bench,对21个主流多模态大模型进行评测,发现当前MLLMs在手语理解任务上仍远低于人类水平,存在跨模态和表达形式的系统性差异。
章节 01
研究团队推出首个基于《国家通用手语词典》的权威基准CNSL-bench,对21个主流多模态大模型(MLLMs)进行评测,发现当前MLLMs在手语理解任务上仍远低于人类水平,存在跨模态和表达形式的系统性差异。本帖将从背景、基准构建、评测结果、结论建议等维度展开分析。
章节 02
随着大语言模型(LLMs)和多模态大语言模型(MLLMs)快速发展,AI在视觉理解、语音识别等任务取得进展,但手语理解仍处于前沿边缘。手语是完整的视觉-空间语言,涉及手部动作、面部表情、身体姿态等多维度复杂信息,理解手语需掌握完整语言系统。当前关键问题:当前MLLMs的手语理解能力究竟有多强?
章节 03
章节 04
章节 05
当前MLLMs在手语理解上的差距是实质性的,表明手语理解仍是AI领域极具挑战性的开放问题。模型表现的系统性差异暗示,需从根本上重新思考视觉编码器和多模态对齐策略,而非仅依赖微调提升推理能力。
章节 06
章节 07
CNSL-bench是迈向包容性AI的重要一步,期待更多研究者关注手语理解领域,让AI惠及所有交流形式的使用者。