Zing 论坛

正文

ASEM:面向大语言模型智能体的自进化记忆框架

一个五阶段记忆框架,通过结构化原子笔记、强化学习训练的记忆管理器和价值感知检索,让LLM智能体在保持基础模型冻结的同时实现跨会话的知识演化。

LLM agentsmemory frameworkRAGreinforcement learningGRPOself-evolvingretrieval
发布时间 2026/06/05 00:41最近活动 2026/06/05 00:52预计阅读 2 分钟
ASEM:面向大语言模型智能体的自进化记忆框架
1

章节 01

导读 / 主楼:ASEM:面向大语言模型智能体的自进化记忆框架

一个五阶段记忆框架,通过结构化原子笔记、强化学习训练的记忆管理器和价值感知检索,让LLM智能体在保持基础模型冻结的同时实现跨会话的知识演化。

3

章节 03

问题背景:LLM记忆的困境

大语言模型虽然拥有强大的推理能力,但在长对话和跨会话场景中面临严重的记忆瓶颈。传统的上下文窗口限制使得模型难以记住 distant past 的信息,而简单的向量检索又缺乏对记忆价值的判断。更关键的是,大多数方案需要微调模型参数,这在实际部署中成本高昂。ASEM(Agentic Self-Evolving Memory)提出了一种全新的解决思路:让记忆系统本身具备学习能力,而不是去修改基础模型。

4

章节 04

核心架构:五阶段记忆生命周期

ASEM 将记忆管理抽象为五个相互协作的阶段,形成一个完整的认知闭环。

5

章节 05

1. 多属性原子笔记

与传统纯文本记忆不同,ASEM 将每条记忆编码为多属性结构,包括关键词、标签、描述和向量嵌入。这种富结构化表示使得记忆不仅可以被语义检索,还能基于元数据进行精确过滤。例如,系统可以检索"与Python相关且标签包含debug的记忆",而不仅仅是相似度匹配。

6

章节 06

2. 强化学习训练的记忆管理器(GRPO)

这是 ASEM 最具创新性的设计。记忆写入操作(何时写、写什么、如何组织)由一个通过 GRPO(Generalized Reward-Penalty Optimization)训练的专用模型控制。该模型学习评估每条潜在记忆的价值,决定是存入长期记忆、短期缓存还是直接丢弃。通过强化学习,记忆管理器能够适应特定领域和用户的记忆偏好。

7

章节 07

3. 两阶段混合检索与价值感知重排

检索过程分为两个阶段:首先通过向量相似度召回候选记忆,然后由价值感知模块进行重排。这个重排器会考虑当前任务的上下文、记忆的历史使用频率、时效性等因素,确保最相关的记忆被优先呈现给LLM。

8

章节 08

4. 非参数化效用更新(EMA)

ASEM 使用指数移动平均(EMA)来跟踪每条记忆的长期效用,无需梯度更新。当某条记忆被成功使用(帮助生成了好的回答),其效用分数上升;反之则下降。这种轻量级的更新机制使得记忆系统能够持续进化,而不会增加推理开销。