正文

δ-mem：为大型语言模型打造的高效在线记忆机制

δ-mem是一种轻量级在线记忆机制，通过低维联想记忆空间和delta规则学习，在保持模型主干冻结的同时实现动态记忆更新，解决了长文本代理场景中的记忆效率问题。

大型语言模型记忆机制在线学习delta规则长文本处理注意力机制PEFT深度学习

发布时间 2026/05/14 00:24最近活动 2026/05/14 00:32预计阅读 5 分钟

章节 01

导读 / 主楼：δ-mem：为大型语言模型打造的高效在线记忆机制

章节 02

背景与挑战

在当前的大型语言模型（LLM）应用中，记忆机制的设计面临着一个根本性的困境。传统的全文检索方法会不断增加上下文负担，导致推理成本线性增长；而静态参数化记忆虽然在训练后固定，但无法适应动态变化的任务需求。特别是在长文本代理（long-term agent）场景中，模型需要持续处理多轮对话、累积信息，并在后续推理中准确调用历史知识。

现有的解决方案各有局限：检索增强生成（RAG）虽然能扩展知识边界，但每次查询都需要额外的检索步骤，增加了延迟和复杂性；而简单的上下文窗口扩展则受限于计算资源和注意力机制的二次复杂度。这些问题的核心在于，我们需要一种既能动态更新、又能在推理时直接影响模型内部计算的机制。

章节 03

δ-mem的核心创新

δ-mem（delta-memory）是由Declare Lab研究团队提出的一种轻量级在线记忆机制，旨在解决上述挑战。该机制的核心创新在于引入了一个紧凑的在线联想记忆状态（Online State of Associative Memory），与冻结的完整注意力主干网络协同工作。

章节 04

技术架构

δ-mem的工作原理可以概括为以下几个关键步骤：

1. 低维投影机制

当新的token或交互片段到达时，模型将当前信息投影到一个低维记忆空间中。这种投影大幅减少了需要存储的信息量，同时保留了关键的语义特征。相比直接存储原始隐藏状态，低维投影显著降低了内存占用。

2. Delta规则学习

投影后的信息通过delta规则学习写入记忆状态。Delta规则是一种增量更新机制，它只存储新信息与已有记忆之间的差异（即"delta"），而不是重复存储完整状态。这种增量式更新策略使得记忆可以高效地随时间演进，而不会产生冗余。

3. 三种写入策略

δ-mem实现了三种不同的记忆写入策略，以适应不同的应用场景：

TSW（Token-level Sequential Writing）：在token级别顺序写入，适合细粒度的信息流处理
SSW（Segment-level Sequential Writing）：在段落级别顺序写入，适合对话轮次等粗粒度信息
MSW（Mixed Strategy Writing）：混合策略，动态选择写入粒度，在效率和精度之间取得平衡

章节 05

与现有方法的对比

特性	全文检索	静态参数记忆	δ-mem
动态更新	✓	✗	✓
推理时影响	间接	直接	直接
内存增长	线性	固定	固定
上下文负担	高	低	极低
训练后修改	✓	✗	✓

章节 06

实现与部署

δ-mem的开源实现基于Python构建，支持多种主流基础模型，包括Qwen3-4B/8B和SmolLM3-3B。项目采用了现代深度学习工程的最佳实践：

技术栈

训练框架：DeepSpeed Zero-2优化，支持大规模分布式训练
注意力机制：集成FlashAttention，提升计算效率
精度：使用bf16混合精度训练，平衡计算效率和模型质量
适配器：采用PEFT技术，仅训练记忆相关参数

项目结构

Delta-Mem/
├── data/                    # 数据集和样本文件
├── deltamem/
│   ├── core/               # 核心模块、配置、适配器加载
│   ├── demo/               # 交互式聊天演示
│   ├── eval/               # 评估脚本（LoCoMo、HotpotQA等）
│   ├── kernels/            # 仿射扫描内核包装器
│   ├── runtime/            # 聊天/会话运行时
│   ├── tests/              # 回归测试
│   ├── tools/              # TPS和检查工具
│   └── train/              # SFT训练代码
└── scripts/                # 训练和评估脚本

章节 07

性能评估

δ-mem在多个基准测试中展现了优异的性能：

长文本理解基准

LoCoMo：长对话记忆测试，评估模型在极长对话历史中保持上下文一致性的能力
HotpotQA：多跳问答，测试模型整合分散信息的能力

通用能力保持

IFEval：指令遵循评估，验证记忆机制不会损害基础指令理解能力
GPQA Diamond：研究生级别物理、化学、生物问题，测试高级推理能力
MemoryAgentBench：专门评估代理场景下的记忆性能

实验结果表明，δ-mem在保持基础模型通用能力的同时，显著提升了长文本场景下的记忆准确性和效率。

章节 08

使用示例

加载δ-mem适配器的过程简洁明了：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from deltamem.core import HFDeltaMemConfig, attach_delta_mem, load_delta_mem_adapter

# 加载基础模型
base_model = "Qwen/Qwen3-4B-Instruct-2507"
adapter_dir = "./delta-mem_qwen3_4b-instruct"

tokenizer = AutoTokenizer.from_pretrained(base_model)
model = AutoModelForCausalLM.from_pretrained(
    base_model,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

# 附加δ-mem记忆机制
config = HFDeltaMemConfig.from_pretrained(adapter_dir)
attach_delta_mem(model, config)
load_delta_mem_adapter(model, adapter_dir)
model.eval()

值得注意的是，δ-mem适配器不同于标准的PEFT LoRA适配器，不能通过merge_and_unload()合并到基础模型中。记忆读写路径是模型执行的一部分，在推理时动态运作。