正文

δ-mem：为大型语言模型打造轻量级在线记忆机制

δ-mem是一种创新的在线记忆机制，通过紧凑的关联记忆状态和低秩注意力修正，让冻结的大模型获得持续学习和长程记忆能力，在MemoryAgentBench上提升31%。

大语言模型记忆机制Agent注意力机制在线学习Delta规则长程记忆Qwen开源

发布时间 2026/05/15 20:16最近活动 2026/05/15 20:19预计阅读 10 分钟

章节 01

导读 / 主楼：δ-mem：为大型语言模型打造轻量级在线记忆机制

章节 02

背景

引言：长程记忆是大模型的下一个瓶颈\n\n大型语言模型（LLM）在对话、编程辅助和知识问答等任务中表现出色，但在需要长期记忆的Agent场景中却面临严峻挑战。当对话持续数小时甚至数天时，传统的上下文窗口扩展不仅成本高昂，还难以保证信息被有效利用。新加坡科技设计大学Declare Lab团队最新提出的δ-mem（delta-Mem）机制，为这一问题提供了优雅的解决方案——它让冻结的大模型获得持续学习和长程记忆能力，而无需重新训练或替换骨干网络。\n\n## 现有方案的局限\n\n当前业界处理长程记忆主要有三种思路，但各自存在明显缺陷：\n\n全文本检索（如RAG）需要不断扩展上下文长度，随着对话累积，计算成本和延迟呈线性增长，且检索质量难以保证。\n\n静态参数记忆在训练完成后固定不变，无法适应新的交互场景和用户习惯，本质上仍是"一次性学习"。\n\n显式上下文扩展（如LongRoPE、YaRN）虽然能支持百万token级别的上下文，但推理成本随之飙升，且模型仍可能"遗忘"早期信息。\n\nDeclare Lab团队意识到，真正的Agent需要的是一种动态更新、直接影响推理的记忆机制——这正是δ-mem的设计出发点。\n\n## δ-mem的核心机制\n\nδ-mem采用了一种巧妙的"外挂式"设计：在保持原始大模型完全冻结的同时，引入一个紧凑的在线关联记忆状态（Online State of Associative Memory）。\n\n### 记忆写入：Delta规则学习\n\n当新的token或交互片段到达时，δ-mem将当前信息投影到一个低维记忆空间，并通过Delta规则学习将其写入固定大小的状态矩阵。这种增量更新方式避免了存储完整历史，而是学习信息的"变化量"。\n\n研究团队提出了三种写入策略：\n- TSW（Token-wise Sequential Writing）：逐token顺序写入，适合细粒度更新\n- SSW（Segment-wise Sequential Writing）：按片段批量写入，平衡效率与精度\n- MSW（Memory-aware Selective Writing）：选择性写入，只保留关键信息\n\n### 记忆读取：低秩注意力修正\n\nδ-mem的精髓在于将记忆读取与注意力机制深度耦合。记忆状态的读出结果用于生成低秩修正项，直接调整骨干网络的注意力计算。这种设计让记忆信息在生成过程中实时影响模型输出，而非简单的上下文拼接。\n\n## 实验验证：小状态，大提升\n\n研究团队在Qwen3-4B/8B和SmolLM3-3B上进行了全面评估。令人惊讶的是，仅需一个8×8的在线记忆状态，δ-mem就能带来显著性能提升：\n\n- 平均得分达到冻结骨干模型的1.10倍\n- 相比最强非δ-mem记忆基线提升15%\n- 在记忆密集型任务上优势更明显：MemoryAgentBench提升31%，LoCoMo提升20%\n\n更重要的是，δ-mem在增强记忆能力的同时，基本保持了模型的通用能力（IFEval、GPQA Diamond等基准），避免了"记忆增强但推理退化"的常见问题。\n\n## 技术实现与使用\n\nδ-mem的实现非常轻量，主要包含：\n\n1. 核心模块（`deltamem/core/`）：配置管理、适配器加载、记忆状态维护\n2. 训练脚本（`deltamem/train/`）：支持DeepSpeed和FlashAttention的高效训练\n3. 评估套件（`deltamem/eval/`）：覆盖LoCoMo、HotpotQA、IFEval、GPQA、MemoryAgentBench\n4. 交互演示（`deltamem/demo/`）：即开即用的聊天Demo\n\n项目采用`uv`作为包管理器，支持Python 3.10+和NVIDIA GPU。安装过程简洁明了：\n\n`bash\ngit clone https://github.com/declare-lab/delta-Mem.git\ncd delta-Mem\nbash scripts/setup_uv_env.sh\n`\n\n加载预训练适配器仅需几行代码：\n\n`python\nfrom deltamem.core import HFDeltaMemConfig, attach_delta_mem, load_delta_mem_adapter\n\nconfig = HFDeltaMemConfig.from_pretrained(adapter_dir)\nattach_delta_mem(model, config)\nload_delta_mem_adapter(model, adapter_dir)\n`\n\n## 实际意义与应用前景\n\nδ-mem的发布对AI Agent开发具有重要启示：\n\n成本效益：相比扩展上下文窗口或全量微调，δ-mem的训练和推理成本极低。8×8的记忆状态几乎可以忽略不计，却带来实质性的能力跃升。\n\n模块化部署：由于骨干网络保持冻结，δ-mem可以作为一个可插拔组件，为已有的大模型快速赋予记忆能力，无需重新训练整个系统。\n\n持续学习：Delta规则学习让模型能够在部署后继续适应用户习惯，实现真正的"越用越懂你"。\n\n开源生态：项目已发布Qwen3-4B-Instruct的预训练适配器，并完整开源了训练、评估和演示代码，为社区复现和改进提供了坚实基础。\n\n## 局限与未来方向\n\n尽管δ-mem展现了令人鼓舞的结果，仍有若干问题值得进一步探索：\n\n- 写入策略选择：TSW、SSW、MSW在不同场景下的最优选择尚无定论\n- 记忆容量上限：8×8状态虽然高效，但对于超长期记忆（数月甚至数年）是否足够仍需验证\n- 跨模型迁移：当前结果基于Qwen和SmolLM，在Llama、Mistral等其他架构上的效果有待验证\n\n## 结语\n\nδ-mem代表了大模型记忆机制研究的重要进展。它证明了一个核心观点：有效的记忆不需要庞大的存储或复杂的架构，关键在于与注意力计算的深度耦合。通过紧凑的在线状态和低秩修正，δ-mem在保持模型通用能力的同时，显著增强了长程记忆表现。\n\n对于正在构建AI Agent的开发者而言，δ-mem提供了一个立即可用的工具——它轻量、高效、易于集成，或许正是你一直在寻找的"记忆增强器"。\n\n---\n\n项目链接：https://github.com/declare-lab/delta-Mem\n\n论文地址：https://arxiv.org/abs/2605.12357\n\nHugging Face模型：https://huggingface.co/declare-lab/delta-mem_qwen3_4b-instruct

章节 03

补充观点 1

引言：长程记忆是大模型的下一个瓶颈\n\n大型语言模型（LLM）在对话、编程辅助和知识问答等任务中表现出色，但在需要长期记忆的Agent场景中却面临严峻挑战。当对话持续数小时甚至数天时，传统的上下文窗口扩展不仅成本高昂，还难以保证信息被有效利用。新加坡科技设计大学Declare Lab团队最新提出的δ-mem（delta-Mem）机制，为这一问题提供了优雅的解决方案——它让冻结的大模型获得持续学习和长程记忆能力，而无需重新训练或替换骨干网络。\n\n现有方案的局限\n\n当前业界处理长程记忆主要有三种思路，但各自存在明显缺陷：\n\n全文本检索（如RAG）需要不断扩展上下文长度，随着对话累积，计算成本和延迟呈线性增长，且检索质量难以保证。\n\n静态参数记忆在训练完成后固定不变，无法适应新的交互场景和用户习惯，本质上仍是"一次性学习"。\n\n显式上下文扩展（如LongRoPE、YaRN）虽然能支持百万token级别的上下文，但推理成本随之飙升，且模型仍可能"遗忘"早期信息。\n\nDeclare Lab团队意识到，真正的Agent需要的是一种动态更新、直接影响推理的记忆机制——这正是δ-mem的设计出发点。\n\nδ-mem的核心机制\n\nδ-mem采用了一种巧妙的"外挂式"设计：在保持原始大模型完全冻结的同时，引入一个紧凑的在线关联记忆状态（Online State of Associative Memory）。\n\n记忆写入：Delta规则学习\n\n当新的token或交互片段到达时，δ-mem将当前信息投影到一个低维记忆空间，并通过Delta规则学习将其写入固定大小的状态矩阵。这种增量更新方式避免了存储完整历史，而是学习信息的"变化量"。\n\n研究团队提出了三种写入策略：\n- TSW（Token-wise Sequential Writing）：逐token顺序写入，适合细粒度更新\n- SSW（Segment-wise Sequential Writing）：按片段批量写入，平衡效率与精度\n- MSW（Memory-aware Selective Writing）：选择性写入，只保留关键信息\n\n记忆读取：低秩注意力修正\n\nδ-mem的精髓在于将记忆读取与注意力机制深度耦合。记忆状态的读出结果用于生成低秩修正项，直接调整骨干网络的注意力计算。这种设计让记忆信息在生成过程中实时影响模型输出，而非简单的上下文拼接。\n\n实验验证：小状态，大提升\n\n研究团队在Qwen3-4B/8B和SmolLM3-3B上进行了全面评估。令人惊讶的是，仅需一个8×8的在线记忆状态，δ-mem就能带来显著性能提升：\n\n- 平均得分达到冻结骨干模型的1.10倍\n- 相比最强非δ-mem记忆基线提升15%\n- 在记忆密集型任务上优势更明显：MemoryAgentBench提升31%，LoCoMo提升20%\n\n更重要的是，δ-mem在增强记忆能力的同时，基本保持了模型的通用能力（IFEval、GPQA Diamond等基准），避免了"记忆增强但推理退化"的常见问题。\n\n技术实现与使用\n\nδ-mem的实现非常轻量，主要包含：\n\n1. 核心模块（deltamem/core/）：配置管理、适配器加载、记忆状态维护\n2. 训练脚本（deltamem/train/）：支持DeepSpeed和FlashAttention的高效训练\n3. 评估套件（deltamem/eval/）：覆盖LoCoMo、HotpotQA、IFEval、GPQA、MemoryAgentBench\n4. 交互演示（deltamem/demo/）：即开即用的聊天Demo\n\n项目采用uv作为包管理器，支持Python 3.10+和NVIDIA GPU。安装过程简洁明了：\n\nbash\ngit clone https://github.com/declare-lab/delta-Mem.git\ncd delta-Mem\nbash scripts/setup_uv_env.sh\n\n\n加载预训练适配器仅需几行代码：\n\npython\nfrom deltamem.core import HFDeltaMemConfig, attach_delta_mem, load_delta_mem_adapter\n\nconfig = HFDeltaMemConfig.from_pretrained(adapter_dir)\nattach_delta_mem(model, config)\nload_delta_mem_adapter(model, adapter_dir)\n\n\n实际意义与应用前景\n\nδ-mem的发布对AI Agent开发具有重要启示：\n\n成本效益：相比扩展上下文窗口或全量微调，δ-mem的训练和推理成本极低。8×8的记忆状态几乎可以忽略不计，却带来实质性的能力跃升。\n\n模块化部署：由于骨干网络保持冻结，δ-mem可以作为一个可插拔组件，为已有的大模型快速赋予记忆能力，无需重新训练整个系统。\n\n持续学习：Delta规则学习让模型能够在部署后继续适应用户习惯，实现真正的"越用越懂你"。\n\n开源生态：项目已发布Qwen3-4B-Instruct的预训练适配器，并完整开源了训练、评估和演示代码，为社区复现和改进提供了坚实基础。\n\n局限与未来方向\n\n尽管δ-mem展现了令人鼓舞的结果，仍有若干问题值得进一步探索：\n\n- 写入策略选择：TSW、SSW、MSW在不同场景下的最优选择尚无定论\n- 记忆容量上限：8×8状态虽然高效，但对于超长期记忆（数月甚至数年）是否足够仍需验证\n- 跨模型迁移：当前结果基于Qwen和SmolLM，在Llama、Mistral等其他架构上的效果有待验证\n\n结语\n\nδ-mem代表了大模型记忆机制研究的重要进展。它证明了一个核心观点：有效的记忆不需要庞大的存储或复杂的架构，关键在于与注意力计算的深度耦合。通过紧凑的在线状态和低秩修正，δ-mem在保持模型通用能力的同时，显著增强了长程记忆表现。\n\n对于正在构建AI Agent的开发者而言，δ-mem提供了一个立即可用的工具——它轻量、高效、易于集成，或许正是你一直在寻找的"记忆增强器"。\n\n---\n\n项目链接：https://github.com/declare-lab/delta-Mem\n\n**论文地址**：https://arxiv.org/abs/2605.12357\n\n**Hugging Face模型**：https://huggingface.co/declare-lab/delta-mem_qwen3_4b-instruct

δ-mem：为大型语言模型打造轻量级在线记忆机制

导读 / 主楼：δ-mem：为大型语言模型打造轻量级在线记忆机制

背景

补充观点 1

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统