正文

听、看、学：SAM-Audio助力音频视觉增量学习，破解灾难性遗忘难题

研究将SAM-Audio的多模态先验知识引入音频视觉类增量学习，通过引导注意力策略和双层蒸馏目标，在多个基准上取得最优性能。

增量学习音频视觉SAM-Audio灾难性遗忘多模态学习注意力机制知识蒸馏

发布时间 2026/06/09 22:01最近活动 2026/06/10 11:00预计阅读 3 分钟

章节 01

导读：SAM-Audio助力音频视觉增量学习破解灾难性遗忘难题

核心观点

研究将SAM-Audio的多模态先验知识引入音频视觉类增量学习，通过引导注意力策略和双层蒸馏目标，有效破解灾难性遗忘难题，在多个基准上取得最优性能。

基本信息

原作者团队：arXiv论文作者团队
来源平台：arXiv
原文标题：Listen, Look, and Learn: Learning Without Forgetting through SAM-Audio
发布时间：2026年6月9日
原文链接：http://arxiv.org/abs/2606.10887v1

章节 02

背景：音频视觉增量学习的多模态挑战

类增量学习（CIL）的核心挑战是让模型学习新类别时不遗忘旧知识，这在单一模态已被广泛研究，但音频视觉多模态场景相对空白。

音频视觉增量学习的独特性：

双模态耦合：需保持单模态记忆及跨模态关联
时序动态：音频和视觉内容具时序特性，需考虑时间维度知识保持
场景复杂性：真实场景（如视频理解）比静态图像分类更复杂，遗忘问题更严重

章节 03

方法：引导注意力策略与双层蒸馏目标

引导注意力策略

工作原理：

提取音频特征捕捉声音事件与时序动态
以音频特征为查询指导视觉特征注意力分配
音频上下文决定视觉表征关注区域

有效性：模态互补、动态聚焦、跨模态强化

双层蒸馏目标

特征级蒸馏：保持新旧模型特征空间相似性，保护跨模态关联模式，防止表征漂移 Logit级蒸馏：保持输出分布一致性，保护已学类别决策边界 协同作用：双层设计从内部表征到最终输出多层次抵抗遗忘，效果优于单一蒸馏

章节 04

实验验证：多基准全面领先现有SOTA

基准数据集

VGGSound（大规模音频视觉数据集）
FSD-Mix（增量学习基准）
其他音频视觉CIL基准

核心结果

一致超越现有SOTA
旧类别保持率显著提升
新类别学习速度不受影响
整体性能曲线更平坦（遗忘更少）

消融实验

SAM-Audio预训练带来显著增益
去除音频引导后性能明显下降
双层蒸馏效果优于单层

定性分析

引导注意力机制能根据音频准确定位视觉区域，增量学习中定位能力保持

章节 05

技术洞察：预训练适配与跨模态注意力的价值

预训练模型的增量适配：强大预训练模型（如SAM-Audio）需通过适配策略（引导注意力+蒸馏）迁移到增量场景
跨模态注意力的价值：音频引导视觉注意力提升性能同时增强鲁棒性
多层次遗忘防护：对抗遗忘需多层面策略，单一方法难以应对复杂挑战

章节 06

应用前景：多场景下的实际应用

音频视觉增量学习的应用场景：

智能监控：学习新异常声音-视觉模式，保持已知威胁识别
多媒体内容管理：视频平台更新分类器支持新内容
机器人交互：学习新指令-动作关联，不遗忘已学技能
辅助技术：听障视觉提示系统适应用户个性化需求变化

章节 07

局限与未来方向：待解决的问题与研究路径

局限

计算开销：SAM-Audio密集表征和注意力机制增加计算成本
长期增量：中等长度增量序列表现良好，极长期（数百阶段）需验证
模态不平衡：处理缺失音频/视觉信息的场景待解决
泛化性：是否适用于其他预训练模型（如ImageBind）需研究

未来方向

开发轻量级引导注意力变体
探索自监督预训练与增量学习结合
研究动态网络架构适应增量场景
扩展到更多模态（文本、深度等）

章节 08

结语：多模态增量学习的重要意义

本研究为音频视觉增量学习提供强有力基线，展示了预训练模型（SAM-Audio）与增量技术（引导注意力、双层蒸馏）结合的有效性，在保持知识同时持续学习。

其意义不仅在于性能提升，更开辟了多模态增量学习的新方向。随着多模态AI渗透，持续学习不遗忘将成为关键课题。SAM-Audio的成功迁移也表明，预训练模型的通用表征适配新场景的“迁移+适配”范式可能是未来AI开发主流路径。