章节 01
SETA框架:稀疏专家混合架构破解大模型持续学习困境
本文介绍SETA(Mixture of Sparse Experts for Task Agnostic Continual Learning)框架,通过自适应稀疏子空间分解和专家路由机制,解决大语言模型持续学习中的可塑性与稳定性冲突,在学习新知识时防止灾难性遗忘。该框架将参数空间分为独特专家(任务专属)和共享专家(跨任务通用),结合动态路由机制,实现高效持续学习。
正文
本文介绍SETA框架,通过自适应稀疏子空间分解和专家路由机制,有效解决大语言模型持续学习中的可塑性与稳定性冲突,在保持新知识学习能力的同时防止灾难性遗忘。
章节 01
本文介绍SETA(Mixture of Sparse Experts for Task Agnostic Continual Learning)框架,通过自适应稀疏子空间分解和专家路由机制,解决大语言模型持续学习中的可塑性与稳定性冲突,在学习新知识时防止灾难性遗忘。该框架将参数空间分为独特专家(任务专属)和共享专家(跨任务通用),结合动态路由机制,实现高效持续学习。
章节 02
大语言模型持续学习面临可塑性与稳定性的两难:学习新任务需更新参数,但易破坏旧知识导致灾难性遗忘。现有方法将参数视为同质资源,未区分任务特有与共享知识,导致新旧任务参数竞争,顾此失彼。
章节 03
SETA的核心创新是分离参数空间为两部分:
章节 04
SETA通过三项技术保障效果:
章节 05
实验基于LLaMA-2 7B、Qwen3-4B等模型,在多领域基准测试(文本分类、问答、生成)上评估:
章节 06
SETA揭示了LLM参数空间特性:不同任务知识占据不同子空间;实现动态容量分配(自适应分配专属与共享容量);任务无关设计(推理无需任务标识)增强实用性,适合真实场景。
章节 07
SETA仍有开放问题:
章节 08
SETA的应用价值包括:个性化模型服务、领域适应、隐私保护学习、终身学习系统。结语:SETA为LLM持续学习提供新颖有效方案,理论与实验均表现出色,为该领域研究开辟新可能。