Zing 论坛

正文

CNSL-bench:首个中国国家通用手语基准测试,揭示多模态大模型在手语理解上的系统性差距

研究团队推出首个基于《国家通用手语词典》的权威基准CNSL-bench,对21个主流多模态大模型进行评测,发现当前MLLMs在手语理解任务上仍远低于人类水平,存在跨模态和表达形式的系统性差异。

手语理解多模态大模型CNSL-bench国家通用手语听障人士AI包容性视频理解跨模态对齐
发布时间 2026/04/24 16:59最近活动 2026/04/27 09:55预计阅读 3 分钟
CNSL-bench:首个中国国家通用手语基准测试,揭示多模态大模型在手语理解上的系统性差距
1

章节 01

CNSL-bench:首个中国国家通用手语基准,揭示多模态大模型手语理解系统性差距

研究团队推出首个基于《国家通用手语词典》的权威基准CNSL-bench,对21个主流多模态大模型(MLLMs)进行评测,发现当前MLLMs在手语理解任务上仍远低于人类水平,存在跨模态和表达形式的系统性差异。本帖将从背景、基准构建、评测结果、结论建议等维度展开分析。

2

章节 02

手语理解的AI挑战:被忽视的多模态前沿

随着大语言模型(LLMs)和多模态大语言模型(MLLMs)快速发展,AI在视觉理解、语音识别等任务取得进展,但手语理解仍处于前沿边缘。手语是完整的视觉-空间语言,涉及手部动作、面部表情、身体姿态等多维度复杂信息,理解手语需掌握完整语言系统。当前关键问题:当前MLLMs的手语理解能力究竟有多强?

3

章节 03

CNSL-bench构建:权威、多模态、多样化的基准设计

三大核心特征

  1. 权威性基础:锚定《国家通用手语词典》,消除歧义、保证一致性、贴近听障人士实际使用;
  2. 多模态覆盖:每个词汇包含文本描述、示意图片、手语视频,支持跨模态能力评估;
  3. 表达形式多样性:涵盖空中书写、手指拼写、汉语手指字母三种关键articulatory类型。

构建方法

  • 数据处理:筛选代表性词汇、多模态对齐、专家审核质量、添加细粒度标注;
  • 评测任务:识别任务(视频/图像→词汇)、描述任务(手语→文本)、对齐任务(视觉与文本匹配)、推理任务(基于手语推理)。
4

章节 04

21个MLLMs评测结果:系统性差距显著

核心发现

  1. 与人类水平的巨大差距:即使最先进模型,准确率仍远低于人类,手语理解是开放难题;
  2. 跨模态差异:视频理解最弱(难以捕捉时序动态),图像理解较好,文本-视觉对齐困难;
  3. 表达形式差异:手指拼写相对易识别,空中书写最具挑战(三维轨迹无明确边界),自然手势居中;
  4. 根本局限:不仅是推理不足,基础架构和训练数据影响更大,存在共同错误模式。
5

章节 05

结论:手语理解需从根本改进MLLM架构

当前MLLMs在手语理解上的差距是实质性的,表明手语理解仍是AI领域极具挑战性的开放问题。模型表现的系统性差异暗示,需从根本上重新思考视觉编码器和多模态对齐策略,而非仅依赖微调提升推理能力。

6

章节 06

对MLLM发展的建议:聚焦视频与多模态对齐

  1. 提升视频理解:强化视频编码器捕捉细粒度动作,优化时序建模能力;
  2. 优化多模态对齐:在手语数据上预训练/微调,设计针对性对齐目标函数;
  3. 增加包容性数据:扩充手语数据集规模、多样性及高质量对齐数据;
  4. 多元化评估基准:覆盖更多手语语言、连续句子理解、生成能力评估。
7

章节 07

社会意义与未来方向:迈向包容性AI

社会意义

  • 惠及数千万听障人士,填补沟通鸿沟;
  • 推动AI技术包容性,避免边缘化群体被忽视;
  • 为手语AI技术提供衡量标准,促进创新落地。

局限与未来

  • 局限:覆盖孤立词汇、仅中国通用手语、未评估生成能力、模型规模可扩展;
  • 未来:开发连续手语理解基准、构建多语言框架、探索手语生成技术、研究多模态联合理解。

CNSL-bench是迈向包容性AI的重要一步,期待更多研究者关注手语理解领域,让AI惠及所有交流形式的使用者。