Zing 论坛

正文

Thinking Agents:基于图网络与主动推理的目标导向多智能体系统

融合RAG、图神经网络与主动推理的智能体平台,通过决策图谱实现目标导向的自主规划与经验复用

多智能体系统RAG图神经网络主动推理目标导向LLM评判决策图谱经验复用ReactFlask
发布时间 2026/03/30 13:46最近活动 2026/03/30 13:56预计阅读 3 分钟
Thinking Agents:基于图网络与主动推理的目标导向多智能体系统
1

章节 01

Thinking Agents项目导读:目标导向多智能体系统的核心创新

Thinking Agents:基于图网络与主动推理的目标导向多智能体系统

该项目由Marcus Anderson开发,融合检索增强生成(RAG)、图神经网络与主动推理理论,构建目标导向的多智能体平台。核心创新在于决策图谱机制,记录智能体决策路径形成可复用知识资产,解决传统LLM智能体缺乏目标导向、规划能力及经验积累的局限,实现自主规划与跨任务经验复用。

项目链接:https://github.com/maracman/thinking-agents

2

章节 02

LLM智能体的困境:从对话到行动的挑战

LLM智能体的困境:从对话到行动

传统LLM驱动的智能体虽具备优秀对话能力,但存在根本性局限:

  • 缺乏真正的目标导向性,难以完成具体任务;
  • 缺乏系统性规划能力,易在复杂问题中迷失;
  • 无法从失败中积累经验,重复犯错。

核心问题在于缺乏管理目标、评估进展及调整策略的有效机制,而人类解决问题时会自然分解任务、设定子目标并回溯调整,这是AI实现自主的关键挑战。

3

章节 03

创新架构:分层智能与决策循环

Thinking Agents的创新架构

系统采用分层智能设计,核心机制包括:

  1. 目标导向智能体循环:认知核心,流程为检查决策图谱→生成子目标→执行行动→LLM评判进展;
  2. LLM评判机制:元认知组件,通过轻量级LLM对行动评分(1-7分),触发Go/NoGo决策,避免自我评估偏差;
  3. 图智能引擎:记忆与学习基础,将Go/NoGo决策编码为图谱边,权重反映尝试次数,通过语义嵌入和最短路径算法实现经验复用。
4

章节 04

决策图谱:经验复用与最优路径搜索

决策图谱:从经验到智能

决策图谱是系统最具特色的设计,区别于传统RAG检索文档片段,它检索成功决策路径

  • 语义节点嵌入:用all-MiniLM-L6-v2模型将节点标签嵌入语义空间,通过余弦相似度搜索相关历史节点;
  • 带权路径搜索:使用NetworkX最短路径算法,综合历史尝试次数(persistence_count)和失败惩罚(NoGo边权重×10)寻找最优路径;
  • 图谱融合与迁移:支持跨智能体图谱导入与合并,形成共享知识库;
  • 相似性链接:合并后自动检测语义相似节点(余弦相似度>0.8)并建立低成本连接。
5

章节 05

认知科学基础:主动推理理论的应用

主动推理的认知科学基础

系统设计植根于Karl Friston的主动推理理论(智能体通过行动最小化预测误差):

  • 预测性目标设定:主动预测达成目标的路径,驱动子目标生成与路径选择;
  • 误差驱动适应:LLM评分低于预期时视为预测误差,触发策略调整(NoGo决策);
  • 自由能最小化:优先选择历史成功率高的路径(低权重边),减少认知努力。
6

章节 06

技术实现亮点:全栈AI应用架构

技术实现亮点

系统技术栈体现现代全栈AI应用特征:

  • 多提供商LLM支持:抽象OpenAI/Anthropic/Cohere/HuggingFace/本地GGUF模型接口,支持自动降级与重试;
  • 前后端分离:前端React 17+Webpack 5,后端Flask+Waitress提供WSGI服务;
  • 交互式可视化:PyVis生成HTML图谱,通过iframe嵌入前端,直观展示决策过程;
  • 持久化管理:会话保存/加载/复制/删除,决策图谱以JSON格式存储,确保知识连续性。
7

章节 07

应用场景与价值:从复杂问题到知识传承

应用场景与价值

系统适用于多种复杂场景:

  • 复杂问题求解:通过决策图谱避免重复犯错,积累特定问题解决经验;
  • 多智能体协作:多智能体探索不同路径,合并图谱形成全面知识库;
  • 知识传承:新智能体导入经验图谱,快速获得领域能力;
  • 对话游戏与叙事AI:编码情节路径,提升NPC行为连贯性。
8

章节 08

局限性与未来改进方向

局限性与未来方向

当前系统存在以下局限及改进方向:

  1. 评判机制主观性:依赖LLM评分可能不一致,需引入客观指标或多评判者共识;
  2. 图谱语义表达不足:句子嵌入无法捕捉复杂上下文,可采用更高级GNN架构;
  3. 学习速度受限:依赖实际交互次数,可结合模拟环境进行快速自我对弈学习。