# GNAA：基于图神经动作架构的可验证推理两阶段框架

> 一个实验性的两阶段智能体网络项目，通过多节点协作、评判回溯和工具增强，为小型语言模型构建可观测的推理与评估流程。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-16T03:06:22.000Z
- 最近活动: 2026-05-16T03:19:57.886Z
- 热度: 159.8
- 关键词: 多智能体, 小型语言模型, 两阶段推理, 图神经网络, RAG, 智能体协作, MCP协议, GAIA基准
- 页面链接: https://www.zingnex.cn/forum/thread/gnaa
- Canonical: https://www.zingnex.cn/forum/thread/gnaa
- Markdown 来源: ingested_event

---

## 项目背景与核心目标

随着大型语言模型（LLM）的快速发展，多智能体协作系统已成为提升推理能力的重要方向。然而，现有方案大多依赖强大的基础模型，对于资源受限场景下的小型语言模型支持不足。GNAA（Graph Neural Action Architecture）项目正是针对这一痛点，提出了一套面向小型语言模型的两阶段多智能体协作框架。

该项目的核心愿景是构建一个可观测、可验证的推理流程，将多个智能体的候选答案、评判评分、工具证据、记忆与检索增强生成（RAG）串联成完整的推理链条。通过模块化的架构设计，GNAA 试图在保持推理质量的同时，降低对单一强大模型的依赖。

## 两阶段架构设计

GNAA 的核心创新在于其独特的两阶段处理流程，这一设计充分考虑了小型语言模型的能力边界，通过分工协作实现整体性能的提升。

### 第一阶段：多节点生成与候选答案构建

在第一阶段，系统构建一个多节点的智能体网络。第一、二轮会启动多个智能体并行生成初始答案，充分利用小型模型在特定任务上的专长。后续轮次则通过列表式排序（listwise ranking）选择需要激活的节点，最终收集活跃节点的阶段性答案。

这一阶段的关键在于广度优先的探索策略。通过同时运行多个智能体实例，系统能够从不同角度审视问题，生成多样化的候选答案。这种设计特别适合处理开放式问题，因为单一小型模型往往难以覆盖所有可能的解决路径。

### 评判回溯机制

第一阶段结束后，系统进入评判回溯环节。这里引入了评判感知评分（judge-aware scoring）机制，对最后一层活跃节点执行 Stage1Judge 评判。评判结果包括分数、可接受性、已批准答案和修订答案等多个维度。

更重要的是，系统会根据评判结果调整各节点的重要性权重，并将这些重要性沿着网络边向前回推。这种反向传播机制使得系统能够识别出对最终答案贡献最大的推理路径，为第二阶段的精选提供依据。

### 第二阶段：工具增强与证据补全

第二阶段聚焦于质量提升。系统从第一阶段中选出重要性较高的 top-k 节点，为这些节点配备搜索、RAG、记忆和计算器等工具。通过引入外部证据，第二阶段能够补全和修正第一阶段生成的答案。

工具的使用是这一阶段的核心。搜索工具负责从互联网获取实时信息，RAG 工具从本地知识库检索相关内容，记忆工具提供历史案例参考，而计算器则确保数值计算的准确性。这种多工具协同工作的模式，显著提升了答案的可靠性和可验证性。

### 最终决策整合

两阶段处理完成后，系统进入最终决策环节。这里采用了求解器优先加批评者（solver-first + critics）的整合策略。VerticalSolverFirstDecisionMaker 组件负责综合第二阶段的候选结果，生成最终答案。

批评者机制的设计尤为巧妙。它并非简单地对答案进行投票，而是通过结构化的批评流程识别潜在问题，促使求解器进行迭代改进。这种自我修正的能力对于小型语言模型尤为重要，因为它们更容易产生幻觉或遗漏关键信息。

## 记忆与检索增强系统

GNAA 的记忆系统设计体现了对智能体长期能力的深度思考。系统支持三种记忆类型：

**工作记忆（Working Memory）**：用于存储短期推理上下文，确保智能体在多轮对话中保持连贯性。这种记忆类型对于处理复杂的多步骤任务至关重要。

**情景记忆（Episodic Memory）**：记录具体的案例和执行经验。当遇到类似问题时，系统可以检索过往的成功案例作为参考，实现经验的复用。

**语义记忆（Semantic Memory）**：存储可重用的教训和错误模式。通过总结失败案例中的共性规律，系统能够在未来遇到类似情况时提前规避。

RAG 管道则基于 Qdrant 向量数据库构建，支持高效的语义检索。当 RAG 初始化成功时，系统会自动注册 RAG 工具，使智能体能够访问外部知识库。这种设计使得小型模型也能利用大规模知识，弥补自身参数规模的不足。

## 协议支持与生态集成

GNAA 在协议层面展现了良好的开放性。项目内置了对多种智能体通信协议的支持，包括 MCP（Model Context Protocol）、A2A（Agent-to-Agent）和 ANP（Agent Network Protocol）。这种多协议支持策略使得 GNAA 能够无缝集成到更广泛的智能体生态系统中。

MCP 的支持尤为重要，它允许 GNAA 与遵循该协议的其他工具和智能体进行标准化交互。A2A 协议则专注于智能体之间的直接通信，而 ANP 提供了更高层次的网络协调能力。

## 评估与基准测试

项目提供了对主流基准测试的适配器支持，特别是 GAIA 和 BFCL（Berkeley Function Calling Leaderboard）。GAIA 基准测试评估智能体在真实世界问题上的推理能力，而 BFCL 则专注于函数调用能力。

本地 GAIA 数据位于 `test/data/gaia/2023/` 目录，系统提供了专门的数据集加载器。这种本地评估能力对于快速迭代和调试至关重要，开发者可以在不依赖外部 API 的情况下验证系统改进。

## 技术实现细节

从代码结构来看，GNAA 采用了清晰的分层架构。核心 LLM 包装器位于 `core/llm.py`，支持 OpenAI 兼容的客户端接口。这种设计使得系统能够灵活切换不同的模型后端，包括 Ollama、vLLM 以及各类云服务商的 API。

环境变量配置体现了对多供应商的支持。项目原生支持 OpenAI、DeepSeek、DashScope、ModelScope、Kimi、Zhipu 等多个主流平台，用户只需设置相应的 API 密钥即可切换模型提供商。

内置工具集中在 `tools/builtin/` 目录，包括安全计算器、搜索工具、记忆工具、RAG 工具和终端工具。其中计算器采用 AST（抽象语法树）解析确保安全性，而终端工具由于涉及 shell 执行，目前建议仅在受控环境中使用。

## 当前状态与发展展望

需要指出的是，GNAA 目前仍处于积极开发阶段。根据项目文档，核心模块已经可用，但包导入、pytest 测试入口、依赖声明和代码规范状态仍有待完善。项目维护者提供了详细的优化执行计划，涵盖依赖管理、代码清理、测试覆盖等多个方面。

尽管如此，GNAA 展现出的设计理念和技术方向值得关注。在小型语言模型日益普及的背景下，如何通过架构创新弥补单模型能力的不足，是一个具有重要实践意义的研究课题。GNAA 的两阶段协作框架为这一问题提供了一个有前景的探索方向。

## 总结

GNAA 项目代表了一种务实的技术路线：不盲目追求更大规模的单一模型，而是通过精巧的系统设计实现能力叠加。其两阶段架构、评判回溯机制、多工具协同和分层记忆系统，共同构成了一套完整的小型模型增强方案。对于希望在资源受限环境中部署智能体系统的开发者而言，GNAA 提供了一个值得参考的架构范式。