Zing 论坛

正文

听、看、学:SAM-Audio助力音频视觉增量学习,破解灾难性遗忘难题

研究将SAM-Audio的多模态先验知识引入音频视觉类增量学习,通过引导注意力策略和双层蒸馏目标,在多个基准上取得最优性能。

增量学习音频视觉SAM-Audio灾难性遗忘多模态学习注意力机制知识蒸馏
发布时间 2026/06/09 22:01最近活动 2026/06/10 11:00预计阅读 3 分钟
听、看、学:SAM-Audio助力音频视觉增量学习,破解灾难性遗忘难题
1

章节 01

导读:SAM-Audio助力音频视觉增量学习破解灾难性遗忘难题

核心观点

研究将SAM-Audio的多模态先验知识引入音频视觉类增量学习,通过引导注意力策略和双层蒸馏目标,有效破解灾难性遗忘难题,在多个基准上取得最优性能。

基本信息

  • 原作者团队:arXiv论文作者团队
  • 来源平台:arXiv
  • 原文标题:Listen, Look, and Learn: Learning Without Forgetting through SAM-Audio
  • 发布时间:2026年6月9日
  • 原文链接:http://arxiv.org/abs/2606.10887v1
2

章节 02

背景:音频视觉增量学习的多模态挑战

类增量学习(CIL)的核心挑战是让模型学习新类别时不遗忘旧知识,这在单一模态已被广泛研究,但音频视觉多模态场景相对空白。

音频视觉增量学习的独特性:

  1. 双模态耦合:需保持单模态记忆及跨模态关联
  2. 时序动态:音频和视觉内容具时序特性,需考虑时间维度知识保持
  3. 场景复杂性:真实场景(如视频理解)比静态图像分类更复杂,遗忘问题更严重
3

章节 03

方法:引导注意力策略与双层蒸馏目标

引导注意力策略

工作原理

  1. 提取音频特征捕捉声音事件与时序动态
  2. 以音频特征为查询指导视觉特征注意力分配
  3. 音频上下文决定视觉表征关注区域

有效性:模态互补、动态聚焦、跨模态强化

双层蒸馏目标

特征级蒸馏:保持新旧模型特征空间相似性,保护跨模态关联模式,防止表征漂移 Logit级蒸馏:保持输出分布一致性,保护已学类别决策边界 协同作用:双层设计从内部表征到最终输出多层次抵抗遗忘,效果优于单一蒸馏

4

章节 04

实验验证:多基准全面领先现有SOTA

基准数据集

  • VGGSound(大规模音频视觉数据集)
  • FSD-Mix(增量学习基准)
  • 其他音频视觉CIL基准

核心结果

  • 一致超越现有SOTA
  • 旧类别保持率显著提升
  • 新类别学习速度不受影响
  • 整体性能曲线更平坦(遗忘更少)

消融实验

  • SAM-Audio预训练带来显著增益
  • 去除音频引导后性能明显下降
  • 双层蒸馏效果优于单层

定性分析

引导注意力机制能根据音频准确定位视觉区域,增量学习中定位能力保持

5

章节 05

技术洞察:预训练适配与跨模态注意力的价值

  1. 预训练模型的增量适配:强大预训练模型(如SAM-Audio)需通过适配策略(引导注意力+蒸馏)迁移到增量场景
  2. 跨模态注意力的价值:音频引导视觉注意力提升性能同时增强鲁棒性
  3. 多层次遗忘防护:对抗遗忘需多层面策略,单一方法难以应对复杂挑战
6

章节 06

应用前景:多场景下的实际应用

音频视觉增量学习的应用场景:

  • 智能监控:学习新异常声音-视觉模式,保持已知威胁识别
  • 多媒体内容管理:视频平台更新分类器支持新内容
  • 机器人交互:学习新指令-动作关联,不遗忘已学技能
  • 辅助技术:听障视觉提示系统适应用户个性化需求变化
7

章节 07

局限与未来方向:待解决的问题与研究路径

局限

  • 计算开销:SAM-Audio密集表征和注意力机制增加计算成本
  • 长期增量:中等长度增量序列表现良好,极长期(数百阶段)需验证
  • 模态不平衡:处理缺失音频/视觉信息的场景待解决
  • 泛化性:是否适用于其他预训练模型(如ImageBind)需研究

未来方向

  • 开发轻量级引导注意力变体
  • 探索自监督预训练与增量学习结合
  • 研究动态网络架构适应增量场景
  • 扩展到更多模态(文本、深度等)
8

章节 08

结语:多模态增量学习的重要意义

本研究为音频视觉增量学习提供强有力基线,展示了预训练模型(SAM-Audio)与增量技术(引导注意力、双层蒸馏)结合的有效性,在保持知识同时持续学习。

其意义不仅在于性能提升,更开辟了多模态增量学习的新方向。随着多模态AI渗透,持续学习不遗忘将成为关键课题。SAM-Audio的成功迁移也表明,预训练模型的通用表征适配新场景的“迁移+适配”范式可能是未来AI开发主流路径。