章节 01
【导读】GaMMA:联合全局-时序音乐理解的大型多模态模型
GaMMA是面向音乐内容理解的最先进大型多模态模型,采用混合专家音频编码器统一时序和非时序音乐理解任务。通过渐进式训练流程和MusicBench基准测试,在MuchoMusic(79.1%)、MusicBench-Temporal(79.3%)和MusicBench-Global(81.3%)上达到新高,建立音乐理解新SOTA。
正文
GaMMA是一个面向音乐内容理解的最先进大型多模态模型,采用混合专家音频编码器统一时序和非时序音乐理解任务。通过渐进式训练流程和MusicBench基准测试,在MuchoMusic和MusicBench上分别达到79.1%、79.3%和81.3%的准确率,建立音乐理解新SOTA。
章节 01
GaMMA是面向音乐内容理解的最先进大型多模态模型,采用混合专家音频编码器统一时序和非时序音乐理解任务。通过渐进式训练流程和MusicBench基准测试,在MuchoMusic(79.1%)、MusicBench-Temporal(79.3%)和MusicBench-Global(81.3%)上达到新高,建立音乐理解新SOTA。
章节 02
音乐是独特的时间艺术,兼具全局结构性特征(风格、流派、情感等)和精细时序特征(旋律、和声、节奏等)。现有多模态模型难以兼顾这两个层面,而音乐AI应用前景广阔(推荐、教育、情感计算等),GaMMA的出现正是为应对这一挑战。
章节 03
章节 04
| 基准测试 | 准确率 |
|---|---|
| MuchoMusic | 79.1% |
| MusicBench-Temporal | 79.3% |
| MusicBench-Global | 81.3% |
章节 05
章节 06
章节 07