# CNSL-bench：首个中国国家通用手语基准测试，揭示多模态大模型在手语理解上的系统性差距

> 研究团队推出首个基于《国家通用手语词典》的权威基准CNSL-bench，对21个主流多模态大模型进行评测，发现当前MLLMs在手语理解任务上仍远低于人类水平，存在跨模态和表达形式的系统性差异。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-24T08:59:33.000Z
- 最近活动: 2026-04-27T01:55:55.356Z
- 热度: 86.1
- 关键词: 手语理解, 多模态大模型, CNSL-bench, 国家通用手语, 听障人士, AI包容性, 视频理解, 跨模态对齐
- 页面链接: https://www.zingnex.cn/forum/thread/cnsl-bench
- Canonical: https://www.zingnex.cn/forum/thread/cnsl-bench
- Markdown 来源: ingested_event

---

## 手语理解的AI挑战：被忽视的多模态前沿

随着大语言模型（LLMs）和多模态大语言模型（MLLMs）的快速发展，AI系统在视觉理解、语音识别、跨模态推理等任务上取得了令人瞩目的进展。然而，一个对数千万听障人士至关重要的领域——**手语理解**——却仍然处于AI研究的前沿边缘。

手语不是简单的手势集合，而是拥有完整语法结构的视觉-空间语言。它涉及手部动作、面部表情、身体姿态、空间定位等多维度的复杂信息。对于AI系统来说，理解手语不仅是识别手势，更是理解一种完整的语言系统。

尽管手语研究在LLM时代取得了一些进展，但一个关键问题仍然悬而未决：**当前的多模态大模型究竟有多强的手语理解能力？**

## CNSL-bench：首个国家通用手语权威基准

为了回答这个问题，研究团队推出了**CNSL-bench**（Chinese National Sign Language benchmark），这是首个专门针对中国国家通用手语设计的综合性基准测试。

### 三大核心特征

CNSL-bench的设计体现了对手语独特性质的深入理解：

#### 1. 权威性基础：基于国家通用手语词典

与许多依赖网络采集或众包标注的手语数据集不同，CNSL-bench锚定于**《国家通用手语词典》**——中国官方标准化手语词汇的权威来源。这一设计带来了几个关键优势：

- **消除歧义**：避免了地方变体或非规范表达带来的语义模糊
- **一致性保证**：所有手语词汇都有标准化的定义和演示
- **教育价值**：与听障人士实际使用的规范手语高度一致

#### 2. 多模态覆盖：文本、图像与视频对齐

CNSL-bench提供了丰富的多模态数据，每个手语词汇都包含：

- **文本描述**：标准化的词汇定义和解释
- **示意图片**：关键手势姿态的静态展示
- **手语视频**：完整的动态演示，包含动作轨迹和时序信息

这种多模态对齐设计使得研究者可以评估MLLMs在不同输入模态下的表现，以及跨模态理解能力。

#### 3. 表达形式多样性：涵盖多种手语 articulatory 类型

手语并非单一形式，而是包含多种表达机制。CNSL-bench特别关注了三种关键的 manual articulatory 形式：

**空中书写（Air-writing）**：用手指在空中书写汉字，是一种常见的补充表达方式

**手指拼写（Finger-spelling）**：用手指的特定形状表示字母或拼音，用于拼写专有名词或外来词

**汉语手指字母（Chinese manual-alphabet）**：专门用于汉语拼音的手指字母系统

这种多样性支持对MLLMs在不同手语表达形式上的细粒度分析。

## 大规模评测：21个MLLMs的表现

研究团队使用CNSL-bench对21个开源和专有的最新多模态大模型进行了全面评测，涵盖了当前MLLM领域的主流架构和训练范式。

### 核心发现一：与人类水平的巨大差距

评测结果揭示了一个令人警醒的事实：**尽管多模态建模取得了显著进展，当前的MLLMs在手语理解任务上仍然远低于人类水平**。

这种差距不是边缘性的，而是实质性的。即使是最先进的模型，在手语理解任务上的准确率也与人类表现存在显著差距。这表明手语理解仍然是AI领域一个极具挑战性的开放问题。

### 核心发现二：跨模态的系统性差异

研究发现，MLLMs在不同输入模态下的表现存在系统性差异：

**视频理解最弱**：包含时序信息的视频输入对手语理解至关重要，但当前MLLMs在视频理解方面的能力明显不足。许多模型难以捕捉手语动作的时间动态和细微变化。

**图像理解较好**：静态图像的表现相对较好，这可能是因为图像任务在MLLM训练数据中更为常见。但即使是图像，模型对细微手势差异的识别仍然存在问题。

**文本-视觉对齐困难**：将手语视频/图像与文本描述对齐的任务尤其困难，这表明模型在手语的跨模态表示学习方面还有很大提升空间。

### 核心发现三：表达形式的性能差异

在不同手语表达形式上，模型表现也存在显著差异：

**手指拼写相对容易**：结构化的手指字母系统对模型来说相对容易识别，可能是因为其具有更明确的视觉模式

**空中书写最具挑战**：在空中书写汉字的任务上，模型表现最差。这可能是因为空中书写涉及三维空间轨迹，且缺乏明确的视觉边界

**自然手势居中**：常规的手语词汇手势识别性能介于两者之间

### 核心发现四：推理之外的根本局限

研究团队进行了深入的诊断分析，发现MLLMs在手语理解上的局限**不仅仅是推理能力的不足**。

具体来说：

- 即使模型的推理能力得到提升，手语理解的表现改善有限

- 指令遵循的鲁棒性在不同模型间差异很大，表明基础架构和训练数据的影响可能比微调策略更重要

- 某些错误模式在不同模型间一致出现，暗示可能存在共同的训练数据偏见或架构局限

这些发现表明，手语理解能力的提升可能需要从根本上重新思考MLLMs的视觉编码器和多模态对齐策略。

## 技术细节：CNSL-bench的构建方法

### 数据采集与处理

CNSL-bench的数据来源于《国家通用手语词典》的官方资源，经过以下处理：

1. **词汇筛选**：选择具有代表性的手语词汇，覆盖不同难度和表达形式
2. **多模态对齐**：确保文本、图像和视频数据的一致性和同步
3. **质量控制**：通过专家审核确保手语演示的规范性
4. **标注增强**：添加细粒度的标注，包括手势类型、难度等级等

### 评测任务设计

CNSL-bench包含多种评测任务，全面评估MLLMs的手语理解能力：

**识别任务**：给定手语视频/图像，识别对应的手语词汇

**描述任务**：要求模型描述给定手语内容，评估其对手语语义的理解

**对齐任务**：评估模型将手语内容与文本描述对齐的能力

**推理任务**：测试模型基于手语内容进行推理的能力

## 对MLLM发展的启示

CNSL-bench的研究结果对多模态大模型的发展提供了几个重要启示：

### 1. 视频理解能力亟待提升

手语是一种 inherently 时序性的语言，视频理解能力的不足是制约手语理解的关键因素。未来的MLLMs需要：

- 更强大的视频编码器，能够捕捉细粒度的动作变化
- 更好的时序建模能力，理解动作的先后顺序和动态演变
- 更高效的计算架构，支持长视频序列的处理

### 2. 多模态对齐需要专门优化

手语理解要求模型能够将视觉信息与语言概念精确对齐。这可能需要：

- 在手语数据上进行专门的预训练或微调
- 设计针对手语特点的多模态对齐目标函数
- 引入手语语言学知识，指导表示学习

### 3. 包容性数据的重要性

当前MLLMs的训练数据主要来自通用视觉-语言内容，手语相关数据严重不足。提升手语理解能力需要：

- 更大规模的手语数据集
- 更多样化的手语变体和方言
- 更高质量的手语-文本对齐数据

### 4. 评估基准的多元化

CNSL-bench的推出填补了手语理解评估基准的空白。未来需要：

- 覆盖更多手语语言（如美国手语ASL、英国手语BSL等）的基准
- 包含连续手语句子理解的任务（而不仅是孤立词汇）
- 评估手语生成能力的基准（而不仅是理解）

## 社会意义：AI for Accessibility

CNSL-bench的研究不仅具有技术价值，更有深远的社会意义：

### 听障人士的沟通鸿沟

全球有数千万听障人士，手语是他们的主要交流方式。然而，AI技术的发展并没有充分惠及这个群体。手语翻译工具的缺乏使得听障人士在获取信息、教育、就业等方面面临巨大障碍。

### AI技术的包容性责任

作为AI研究者，我们有责任确保技术的发展能够惠及所有人，包括边缘化群体。手语理解研究的滞后反映了AI领域的一个更广泛的问题：**技术发展往往优先服务于主流群体，而忽视少数群体的需求**。

### CNSL-bench的推动作用

通过提供权威的评测基准，CNSL-bench希望能够：

- 推动学术界和工业界对手语理解的重视
- 为手语AI技术的发展提供衡量标准
- 促进听障人士相关技术的创新和落地

## 局限与未来方向

研究团队也坦诚地指出了CNSL-bench的一些局限：

**词汇覆盖**：当前版本主要覆盖孤立词汇，连续手语句子的理解仍是未来工作

**地域局限**：基于中国国家通用手语，其他手语语言的基准仍需开发

**评估维度**：主要关注理解能力，手语生成（从文本到手语）的评估尚未涵盖

**模型规模**：评测的模型数量和类型可以进一步扩展

未来研究方向包括：

- 开发连续手语理解的基准和模型
- 构建多语言手语理解的统一框架
- 探索手语生成技术
- 研究手语与其他模态（如口语、文字）的联合理解

## 结语：迈向包容性AI的重要一步

CNSL-bench的推出标志着多模态大模型研究向包容性AI迈出了重要一步。它不仅是技术上对手语理解能力的系统性评估，更是对AI领域的一个提醒：**真正强大的人工智能应该能够理解人类交流的所有形式，包括那些服务于边缘化群体的语言**。

当前MLLMs在手语理解上的巨大差距既是一个挑战，也是一个机遇。它提醒我们，在追求通用人工智能的道路上，还有许多重要的能力等待被开发。同时，它也指明了未来研究的方向：更好的视频理解、更强的多模态对齐、更包容的数据集。

随着CNSL-bench等基准的推出，我们期待看到更多研究者关注手语理解这一重要领域，推动AI技术真正惠及每一个人，无论他们使用何种语言交流。
