Zing 论坛

正文

MELD.Raw:英语与阿拉伯方言的多模态情感分析框架

MELD.Raw 是一个深度学习框架,融合文本、音频和面部视频三种模态,支持英语和阿拉伯方言的情感与情绪识别,实现了三种不同的架构并在多个基准数据集上进行了评估。

multimodalsentiment analysisemotion recognitionArabic NLPtransformercross-modal attentionCMU-MOSIMELD
发布时间 2026/04/06 05:02最近活动 2026/04/06 05:25预计阅读 3 分钟
MELD.Raw:英语与阿拉伯方言的多模态情感分析框架
1

章节 01

MELD.Raw: 英语与阿拉伯方言的多模态情感分析框架(导读)

MELD.Raw 是由 Kareem Waly 开发的深度学习框架,融合文本、音频和面部视频三种模态,支持英语与阿拉伯方言的情感及情绪识别。该框架实现了三种互补架构,并在 CMU-MOSI、MELD 及自定义阿拉伯语数据集上完成评估,既提供了高性能英语模型,也揭示了低资源阿拉伯语多模态研究的挑战。

2

章节 02

项目背景与研究动机

情感分析是自然语言处理的重要任务,但纯文本方法难以捕捉人类情感的完整图景——日常交流中,语调、语速、面部表情等非语言线索传递着丰富情感信息。多模态情感分析通过同时分析文本、音频和视觉信号解决这一问题。MELD.Raw 聚焦于支持英语与研究相对不足的阿拉伯方言,旨在探索有效的多模态融合方案。

3

章节 03

三种架构设计

项目针对不同任务和数据集优化了三种架构:

  1. 增强型 Transformer 编码器(CMU-MOSI):采用跨模态注意力机制,文本用 DeBERTa-v3-base、音频用 Whisper-base、视频用 ViT-base-patch16,在 CMU-MOSI 测试集上达到 80.06% 准确率和 0.8012 F1 分数。
  2. 双任务投影融合模型(MELD):同时处理7类情绪识别和3类情感分类,通过线性投影层映射模态特征后拼接融合,情绪分类准确率 62.87%、情感分类 68.93%。
  3. 阿拉伯语跨模态 Transformer:针对阿拉伯方言设计,用4头注意力机制、标签平滑和类别平衡损失处理小数据集,文本用 Arabic BERT、音频用增强 MFCC、视频用 OpenCV+PCA 降维。
4

章节 04

数据集与实验结果

框架在三个数据集上进行实验:

数据集 来源 样本数 模态 语言 最佳结果
CMU-MOSI CMU MultiComp Lab 2199 文本/音频/视频 英语 80.06% 准确率,F1:0.8012
MELD SenticNet Lab 13707 文本/音频/视频 英语 情绪 62.87%,情感 68.93%
AMSAER 自定义 412 文本/音频/视频 阿拉伯方言 39.68% 准确率,F1:0.3766
阿拉伯语实验性能较低,主要因数据集规模过小(训练集仅288样本),揭示了阿拉伯语多模态语料库匮乏的瓶颈。
5

章节 05

关键发现与研究贡献

关键发现

  • 跨模态 Transformer 优于简单特征拼接(如 CMU-MOSI 结果所示);
  • 双任务学习(情绪+情感)可行且相互促进;
  • 阿拉伯语多模态 NLP 面临严重数据短缺,音频和视觉线索对解决文本歧义至关重要。 贡献:提供英阿对比基准、验证双任务学习可行性、揭示低资源语言挑战、提供完整可复现代码。
6

章节 06

应用场景与未来方向

应用场景:客服质量监控(分析对话文本/语气/表情)、内容审核(识别视频负面情绪)、心理健康筛查(检测抑郁/焦虑信号)、阿拉伯语社交媒体舆情分析。 未来方向:收集更大阿拉伯语多模态语料库、探索半监督/自监督学习利用未标注数据、研究英阿跨语言迁移、优化模型效率以适应资源受限环境。