章节 01
AMD-Proj:文档理解持续学习新框架导读
本文介绍AMD-Proj,一种面向文档理解领域持续学习的新型框架。该方法通过自适应记忆驱动的选择性梯度投影机制,在保持模型可塑性的同时防止灾难性遗忘,有效解决多模态文档理解模型顺序学习新任务时的稳定性-可塑性困境。
正文
本文介绍AMD-Proj,一种用于文档理解领域持续学习的新型框架。该方法通过自适应记忆驱动的选择性梯度投影机制,在保持模型可塑性的同时防止灾难性遗忘,有效解决了多模态文档理解模型在顺序学习新任务时的稳定性-可塑性困境。
章节 01
本文介绍AMD-Proj,一种面向文档理解领域持续学习的新型框架。该方法通过自适应记忆驱动的选择性梯度投影机制,在保持模型可塑性的同时防止灾难性遗忘,有效解决多模态文档理解模型顺序学习新任务时的稳定性-可塑性困境。
章节 02
文档理解是计算机视觉与自然语言处理交叉领域的核心方向,应用于发票解析、表单识别等场景。但持续学习中存在'灾难性遗忘'问题,传统微调会破坏先前任务性能。现有持续学习方法(如EWC、LwF)在通用视觉任务表现尚可,但文档理解涉及视觉布局与文本语义的紧密耦合,多模态融合要求更高,现有方法面临独特挑战。
章节 03
AMD-Proj将'记忆'与'梯度投影'有机结合,核心创新是自适应记忆驱动的选择性梯度投影机制。传统梯度投影方法采用固定策略,AMD-Proj为每个已学任务维护记忆表示(记录参数方向、任务重要性及关系),根据当前任务与历史任务的相似性等因素自适应选择需保护的参数子空间,提高参数利用效率,平衡稳定性与可塑性。
章节 04
针对Transformer文档理解模型(如LayoutLMv2/v3)的不同层,维护独立参数子空间,浅层(低级特征)保持高可塑性,深层(高级语义)加强保护,实现精细化控制。
用截断SVD近似参数子空间,降低存储并过滤噪声;通过谱分析判断任务复杂度与特异性,辅助梯度投影决策。
针对任务增量场景优化,模型按顺序学习明确定义的任务(如不同文档类型),利用任务身份信号进行自适应决策。
章节 05
在FUNSD(表单)、CORD(收据)、SROIE(票据)、BuDDIE(业务文档)四个数据集评估,对比经典方法(EWC、LwF)、文档理解专用方法(CUBER)及原始梯度投影方法(GPM、TRGP)。
AMD-Proj在所有数据集F1分数上显著优于现有方法,平均提升3-5个百分点;抗遗忘能力强,最早任务性能衰减极低。
去除自适应选择策略导致参数效率下降,去除记忆机制引发严重遗忘;层级投影优于全局策略。
章节 06
支持渐进式学习新文档类型,避免模型碎片化或重新训练的高成本,降低系统维护成本。
通过截断SVD和选择性投影,额外存储需求低;推理时无额外计算开销,不增加延迟。
通过记忆子空间结构理解任务表示,提供人工干预接口(调整任务权重等),适配高风险场景需求。
章节 07
当前针对任务增量学习场景,类别/领域增量场景有效性待验证;假设任务重要性相似,未融入显式优先级控制。
结合参数高效微调技术(如LoRA、Adapter);扩展到多模态大模型(如GPT-4V、Gemini)的持续学习;探索任务优先级控制机制。