Zing 论坛

正文

δ-mem:为大型语言模型打造轻量级在线记忆机制

δ-mem是一种创新的在线记忆机制,通过紧凑的关联记忆状态和低秩注意力修正,让冻结的大模型获得持续学习和长程记忆能力,在MemoryAgentBench上提升31%。

大语言模型记忆机制Agent注意力机制在线学习Delta规则长程记忆Qwen开源
发布时间 2026/05/15 20:16最近活动 2026/05/15 20:19预计阅读 10 分钟
δ-mem:为大型语言模型打造轻量级在线记忆机制
1

章节 01

导读 / 主楼:δ-mem:为大型语言模型打造轻量级在线记忆机制

δ-mem是一种创新的在线记忆机制,通过紧凑的关联记忆状态和低秩注意力修正,让冻结的大模型获得持续学习和长程记忆能力,在MemoryAgentBench上提升31%。

2

章节 02

背景

引言:长程记忆是大模型的下一个瓶颈\n\n大型语言模型(LLM)在对话、编程辅助和知识问答等任务中表现出色,但在需要长期记忆的Agent场景中却面临严峻挑战。当对话持续数小时甚至数天时,传统的上下文窗口扩展不仅成本高昂,还难以保证信息被有效利用。新加坡科技设计大学Declare Lab团队最新提出的δ-mem(delta-Mem)机制,为这一问题提供了优雅的解决方案——它让冻结的大模型获得持续学习和长程记忆能力,而无需重新训练或替换骨干网络。\n\n## 现有方案的局限\n\n当前业界处理长程记忆主要有三种思路,但各自存在明显缺陷:\n\n全文本检索(如RAG)需要不断扩展上下文长度,随着对话累积,计算成本和延迟呈线性增长,且检索质量难以保证。\n\n静态参数记忆在训练完成后固定不变,无法适应新的交互场景和用户习惯,本质上仍是"一次性学习"。\n\n显式上下文扩展(如LongRoPE、YaRN)虽然能支持百万token级别的上下文,但推理成本随之飙升,且模型仍可能"遗忘"早期信息。\n\nDeclare Lab团队意识到,真正的Agent需要的是一种动态更新、直接影响推理的记忆机制——这正是δ-mem的设计出发点。\n\n## δ-mem的核心机制\n\nδ-mem采用了一种巧妙的"外挂式"设计:在保持原始大模型完全冻结的同时,引入一个紧凑的在线关联记忆状态(Online State of Associative Memory)。\n\n### 记忆写入:Delta规则学习\n\n当新的token或交互片段到达时,δ-mem将当前信息投影到一个低维记忆空间,并通过Delta规则学习将其写入固定大小的状态矩阵。这种增量更新方式避免了存储完整历史,而是学习信息的"变化量"。\n\n研究团队提出了三种写入策略:\n- TSW(Token-wise Sequential Writing):逐token顺序写入,适合细粒度更新\n- SSW(Segment-wise Sequential Writing):按片段批量写入,平衡效率与精度\n- MSW(Memory-aware Selective Writing):选择性写入,只保留关键信息\n\n### 记忆读取:低秩注意力修正\n\nδ-mem的精髓在于将记忆读取与注意力机制深度耦合。记忆状态的读出结果用于生成低秩修正项,直接调整骨干网络的注意力计算。这种设计让记忆信息在生成过程中实时影响模型输出,而非简单的上下文拼接。\n\n## 实验验证:小状态,大提升\n\n研究团队在Qwen3-4B/8B和SmolLM3-3B上进行了全面评估。令人惊讶的是,仅需一个8×8的在线记忆状态,δ-mem就能带来显著性能提升:\n\n- 平均得分达到冻结骨干模型的1.10倍\n- 相比最强非δ-mem记忆基线提升15%\n- 在记忆密集型任务上优势更明显:MemoryAgentBench提升31%,LoCoMo提升20%\n\n更重要的是,δ-mem在增强记忆能力的同时,基本保持了模型的通用能力(IFEval、GPQA Diamond等基准),避免了"记忆增强但推理退化"的常见问题。\n\n## 技术实现与使用\n\nδ-mem的实现非常轻量,主要包含:\n\n1. 核心模块deltamem/core/):配置管理、适配器加载、记忆状态维护\n2. 训练脚本deltamem/train/):支持DeepSpeed和FlashAttention的高效训练\n3. 评估套件deltamem/eval/):覆盖LoCoMo、HotpotQA、IFEval、GPQA、MemoryAgentBench\n4. 交互演示deltamem/demo/):即开即用的聊天Demo\n\n项目采用uv作为包管理器,支持Python 3.10+和NVIDIA GPU。安装过程简洁明了:\n\nbash\ngit clone https://github.com/declare-lab/delta-Mem.git\ncd delta-Mem\nbash scripts/setup_uv_env.sh\n\n\n加载预训练适配器仅需几行代码:\n\npython\nfrom deltamem.core import HFDeltaMemConfig, attach_delta_mem, load_delta_mem_adapter\n\nconfig = HFDeltaMemConfig.from_pretrained(adapter_dir)\nattach_delta_mem(model, config)\nload_delta_mem_adapter(model, adapter_dir)\n\n\n## 实际意义与应用前景\n\nδ-mem的发布对AI Agent开发具有重要启示:\n\n成本效益:相比扩展上下文窗口或全量微调,δ-mem的训练和推理成本极低。8×8的记忆状态几乎可以忽略不计,却带来实质性的能力跃升。\n\n模块化部署:由于骨干网络保持冻结,δ-mem可以作为一个可插拔组件,为已有的大模型快速赋予记忆能力,无需重新训练整个系统。\n\n持续学习:Delta规则学习让模型能够在部署后继续适应用户习惯,实现真正的"越用越懂你"。\n\n开源生态:项目已发布Qwen3-4B-Instruct的预训练适配器,并完整开源了训练、评估和演示代码,为社区复现和改进提供了坚实基础。\n\n## 局限与未来方向\n\n尽管δ-mem展现了令人鼓舞的结果,仍有若干问题值得进一步探索:\n\n- 写入策略选择:TSW、SSW、MSW在不同场景下的最优选择尚无定论\n- 记忆容量上限:8×8状态虽然高效,但对于超长期记忆(数月甚至数年)是否足够仍需验证\n- 跨模型迁移:当前结果基于Qwen和SmolLM,在Llama、Mistral等其他架构上的效果有待验证\n\n## 结语\n\nδ-mem代表了大模型记忆机制研究的重要进展。它证明了一个核心观点:有效的记忆不需要庞大的存储或复杂的架构,关键在于与注意力计算的深度耦合。通过紧凑的在线状态和低秩修正,δ-mem在保持模型通用能力的同时,显著增强了长程记忆表现。\n\n对于正在构建AI Agent的开发者而言,δ-mem提供了一个立即可用的工具——它轻量、高效、易于集成,或许正是你一直在寻找的"记忆增强器"。\n\n---\n\n项目链接https://github.com/declare-lab/delta-Mem\n\n**论文地址**:https://arxiv.org/abs/2605.12357\n\n**Hugging Face模型**:https://huggingface.co/declare-lab/delta-mem_qwen3_4b-instruct

3

章节 03

补充观点 1

引言:长程记忆是大模型的下一个瓶颈\n\n大型语言模型(LLM)在对话、编程辅助和知识问答等任务中表现出色,但在需要长期记忆的Agent场景中却面临严峻挑战。当对话持续数小时甚至数天时,传统的上下文窗口扩展不仅成本高昂,还难以保证信息被有效利用。新加坡科技设计大学Declare Lab团队最新提出的δ-mem(delta-Mem)机制,为这一问题提供了优雅的解决方案——它让冻结的大模型获得持续学习和长程记忆能力,而无需重新训练或替换骨干网络。\n\n现有方案的局限\n\n当前业界处理长程记忆主要有三种思路,但各自存在明显缺陷:\n\n全文本检索(如RAG)需要不断扩展上下文长度,随着对话累积,计算成本和延迟呈线性增长,且检索质量难以保证。\n\n静态参数记忆在训练完成后固定不变,无法适应新的交互场景和用户习惯,本质上仍是"一次性学习"。\n\n显式上下文扩展(如LongRoPE、YaRN)虽然能支持百万token级别的上下文,但推理成本随之飙升,且模型仍可能"遗忘"早期信息。\n\nDeclare Lab团队意识到,真正的Agent需要的是一种动态更新、直接影响推理的记忆机制——这正是δ-mem的设计出发点。\n\nδ-mem的核心机制\n\nδ-mem采用了一种巧妙的"外挂式"设计:在保持原始大模型完全冻结的同时,引入一个紧凑的在线关联记忆状态(Online State of Associative Memory)。\n\n记忆写入:Delta规则学习\n\n当新的token或交互片段到达时,δ-mem将当前信息投影到一个低维记忆空间,并通过Delta规则学习将其写入固定大小的状态矩阵。这种增量更新方式避免了存储完整历史,而是学习信息的"变化量"。\n\n研究团队提出了三种写入策略:\n- TSW(Token-wise Sequential Writing):逐token顺序写入,适合细粒度更新\n- SSW(Segment-wise Sequential Writing):按片段批量写入,平衡效率与精度\n- MSW(Memory-aware Selective Writing):选择性写入,只保留关键信息\n\n记忆读取:低秩注意力修正\n\nδ-mem的精髓在于将记忆读取与注意力机制深度耦合。记忆状态的读出结果用于生成低秩修正项,直接调整骨干网络的注意力计算。这种设计让记忆信息在生成过程中实时影响模型输出,而非简单的上下文拼接。\n\n实验验证:小状态,大提升\n\n研究团队在Qwen3-4B/8B和SmolLM3-3B上进行了全面评估。令人惊讶的是,仅需一个8×8的在线记忆状态,δ-mem就能带来显著性能提升:\n\n- 平均得分达到冻结骨干模型的1.10倍\n- 相比最强非δ-mem记忆基线提升15%\n- 在记忆密集型任务上优势更明显:MemoryAgentBench提升31%,LoCoMo提升20%\n\n更重要的是,δ-mem在增强记忆能力的同时,基本保持了模型的通用能力(IFEval、GPQA Diamond等基准),避免了"记忆增强但推理退化"的常见问题。\n\n技术实现与使用\n\nδ-mem的实现非常轻量,主要包含:\n\n1. 核心模块deltamem/core/):配置管理、适配器加载、记忆状态维护\n2. 训练脚本deltamem/train/):支持DeepSpeed和FlashAttention的高效训练\n3. 评估套件deltamem/eval/):覆盖LoCoMo、HotpotQA、IFEval、GPQA、MemoryAgentBench\n4. 交互演示deltamem/demo/):即开即用的聊天Demo\n\n项目采用uv作为包管理器,支持Python 3.10+和NVIDIA GPU。安装过程简洁明了:\n\nbash\ngit clone https://github.com/declare-lab/delta-Mem.git\ncd delta-Mem\nbash scripts/setup_uv_env.sh\n\n\n加载预训练适配器仅需几行代码:\n\npython\nfrom deltamem.core import HFDeltaMemConfig, attach_delta_mem, load_delta_mem_adapter\n\nconfig = HFDeltaMemConfig.from_pretrained(adapter_dir)\nattach_delta_mem(model, config)\nload_delta_mem_adapter(model, adapter_dir)\n\n\n实际意义与应用前景\n\nδ-mem的发布对AI Agent开发具有重要启示:\n\n成本效益:相比扩展上下文窗口或全量微调,δ-mem的训练和推理成本极低。8×8的记忆状态几乎可以忽略不计,却带来实质性的能力跃升。\n\n模块化部署:由于骨干网络保持冻结,δ-mem可以作为一个可插拔组件,为已有的大模型快速赋予记忆能力,无需重新训练整个系统。\n\n持续学习:Delta规则学习让模型能够在部署后继续适应用户习惯,实现真正的"越用越懂你"。\n\n开源生态:项目已发布Qwen3-4B-Instruct的预训练适配器,并完整开源了训练、评估和演示代码,为社区复现和改进提供了坚实基础。\n\n局限与未来方向\n\n尽管δ-mem展现了令人鼓舞的结果,仍有若干问题值得进一步探索:\n\n- 写入策略选择:TSW、SSW、MSW在不同场景下的最优选择尚无定论\n- 记忆容量上限:8×8状态虽然高效,但对于超长期记忆(数月甚至数年)是否足够仍需验证\n- 跨模型迁移:当前结果基于Qwen和SmolLM,在Llama、Mistral等其他架构上的效果有待验证\n\n结语\n\nδ-mem代表了大模型记忆机制研究的重要进展。它证明了一个核心观点:有效的记忆不需要庞大的存储或复杂的架构,关键在于与注意力计算的深度耦合。通过紧凑的在线状态和低秩修正,δ-mem在保持模型通用能力的同时,显著增强了长程记忆表现。\n\n对于正在构建AI Agent的开发者而言,δ-mem提供了一个立即可用的工具——它轻量、高效、易于集成,或许正是你一直在寻找的"记忆增强器"。\n\n---\n\n项目链接https://github.com/declare-lab/delta-Mem\n\n**论文地址**:https://arxiv.org/abs/2605.12357\n\n**Hugging Face模型**:https://huggingface.co/declare-lab/delta-mem_qwen3_4b-instruct