# Mnemos：基于Gemini 3多智能体架构的AI第二大脑

> Mnemos是一个桌面端AI知识管理平台，利用Gemini 3的多模态能力和八个专业化智能体，将截图、语音、文本等碎片化信息自动转化为结构化知识和可执行行动，实现从被动存储到主动协助的跨越。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-14T01:20:14.000Z
- 最近活动: 2026-05-14T01:25:03.576Z
- 热度: 141.9
- 关键词: Gemini 3, 多智能体系统, 知识管理, AI第二大脑, 多模态AI, RAG, 工作流自动化, Vertex AI
- 页面链接: https://www.zingnex.cn/forum/thread/mnemos-gemini-3ai
- Canonical: https://www.zingnex.cn/forum/thread/mnemos-gemini-3ai
- Markdown 来源: ingested_event

---

# Mnemos：基于Gemini 3多智能体架构的AI第二大脑

我们每天都会捕捉大量信息——截图一个感兴趣的技术帖子、收藏一篇论文、保存一条招聘信息——心里想着"稍后处理"。然而工作继续、会议开始、优先级转移，这些"稍后"悄然消失。截止日期错过，机会过期，有价值的信息散落在从未被设计为协同工作的各种工具中。

这个问题的核心不是信息不足，而是信息消费与有意义行动之间存在鸿沟。Mnemos正是为弥合这一鸿沟而生的项目——它在2026年2月的Google Gemini黑客松上诞生，是一个基于Gemini 3多智能体架构的桌面端AI"第二大脑"。

## 从被动存储到主动行动

Mnemos的核心理念是：现有的信息管理工具都是被动的。它们可以存储信息，但只是等待——它们不理解意图、紧迫性或时机。Mnemos试图改变这一范式。

通过一个快捷键或桌面小组件，用户可以在不中断工作流的情况下捕捉截图、语音备忘、文本片段和文档。Gemini 3随后理解每次捕捉背后的内容、上下文和意图，通过三层通用分类框架对其进行归类，并提取可操作项目——如截止日期、待办事项和后续跟进。

真正区分Mnemos与普通笔记应用的是捕捉之后发生的事情。当用户继续工作时，Mnemos在后台主动运作：为用户研究相关资源和文档，自动创建Google日历事件和任务提醒，监控时间敏感信息并在关键时刻前发出通知，甚至为需要回复的邮件起草回复。用户之后可以用自然语言与自己的记忆库交互，通过语义而非关键词检索信息。

## 多智能体系统架构

Mnemos采用了模块化、事件驱动的多智能体架构，由八个专业化的Gemini 3驱动智能体组成，分为两个处理层级。

在核心处理层，感知智能体（Perception Agent）负责对截图执行OCR、转录音频、生成视觉内容的语义描述，从原始输入中提取结构化信息。分类智能体（Classification Agent）通过三层框架分析内容，并从单次捕捉中提取1到14个离散的可操作项目。编排智能体（Orchestration Agent）通过15个专业化工具执行分类后的动作——创建日历事件、生成带截止日期的任务、填充特定领域的集合。

研究智能体（Research Agent）在内容表明具有研究价值时选择性激活，利用Gemini 3的Google搜索接地能力搜索解决方案、教程和文档，并综合生成带来源引用的研究发现。主动智能体（Proactive Agent）以2分钟间隔持续监控捕捉内容中的时间敏感信息和临近截止日期，根据紧急程度生成分级通知，同时检查日程冲突并呈现相关上下文。

资源发现智能体（Resource Finder Agent）在判断学习资源能加速用户进展时自主激活，发现、评估并策划3到5个高质量材料，附带学习路径建议。邮件智能体（Email Intelligence Assistant）作为每日定时任务运行，分析用户过去24小时的Gmail收件箱，识别需要回复的邮件，生成匹配适当语气的专业回复草稿，并直接保存到Gmail草稿箱供用户审阅。

这些智能体通过基于优先级的事件总线进行通信，采用错峰调用策略防止API速率限制，同时保持响应性。

## 三层通用分类框架

Mnemos的分类系统是其智能化的关键。每次捕捉都会经过三层分类，实现结构化、领域无关的理解。

第一层是生活领域分类，涵盖12个类别：工作与职业、教育与学习、金钱与财务、家庭与日常、健康与福祉、家人与关系、旅行与出行、购物与消费、娱乐与休闲、社交与社区、行政与文档、想法与思考。这一层确定了信息属于生活的哪个维度。

第二层是上下文类型分类，包含19种格式：邮件、聊天消息、文档/PDF、网页、应用界面、表单、收据/发票、日历项目、社交媒体帖子、代码/终端输出、电子表格、通知、图片、语音备忘、视频、演示文稿、任务项、研究论文和杂项。这一层识别信息的来源形式。

第三层是意图分类，定义了14种行动类型：执行、安排、支付、购买、记住、学习、跟踪、参考、研究、比较、跟进、等待、归档、忽略。这一层判断用户对这条信息的潜在意图，是整个主动行动链的起点。

三层分类的组合使Mnemos能够精确理解"一张包含会议时间的截图"不仅是一张图片（上下文类型），它属于工作领域（生活领域），而且用户的意图是安排日程（意图类型），因此应该自动创建日历事件。

## 技术栈与部署架构

Mnemos的前端基于Electron.js构建，提供跨平台桌面支持和原生操作系统集成。后端使用Python和FastAPI作为中央网关，处理REST API、WebSocket实时更新连接，并将请求路由到Gemini 3驱动的智能体。

在AI能力方面，Mnemos通过Vertex AI访问Gemini 3，使用text-embedding-004生成文本嵌入，配合Vertex AI Search实现低延迟的语义检索。RAG管道将捕捉的内容转换为向量表示，用户可以对之前捕捉的所有知识进行自然语言查询。

存储层采用了分层设计：Google Cloud Storage存储文件、截图和文档；Firestore（NoSQL）存储结构化元数据、任务状态和应用配置；Vertex AI Search提供索引化的语义检索。

整个系统部署在Google Cloud Platform上，所有后端服务和智能体运行时以容器化、无状态工作负载的形式运行在Cloud Run上，支持自动水平扩展。安全方面采用Google OAuth进行用户认证，使用专用服务账户和最小权限IAM角色管理后端服务，不使用静态密钥或嵌入式API密钥。

## 工程挑战与经验

团队在开发过程中面临的最大挑战是从反应式聊天机器人思维转向主动式系统。确定Mnemos何时应该行动、何时应该保持沉默，需要仔细的推理设计和阈值调优。

多动作提取也是一个显著挑战——从单次捕捉中提取多个离散动作，每个动作都有独立的截止日期和执行要求。例如，一张会议截图可能同时包含日程安排、待办事项和需要研究的技术主题。

多模态处理方面，在不同应用上下文中可靠地处理非结构化截图并保持高准确率，需要大量的工程优化。性能平衡也是关键——如何在低延迟的同步反馈与深度的异步后台处理之间找到平衡点。

团队从中获得的核心经验是：智能本身不够，时机、上下文和克制同样重要。最好的AI系统是那些在不需要持续关注的情况下增强人类能力的系统。

## 总结与展望

Mnemos代表了AI个人知识管理的一个有趣方向——从被动的信息仓库转向主动的智能助手。它不仅仅是一个更好的笔记工具，而是尝试填补信息捕捉与行动执行之间的鸿沟。

项目的短期目标包括跨设备同步、与Slack/Notion/Linear等生产力工具的深度集成、改进的个性化优先级排序以及原生macOS桌面应用。长期愿景则指向增强的预测性主动智能、团队协作功能、企业级安全与隐私控制以及移动应用。

对于关注AI应用架构的开发者来说，Mnemos的多智能体设计、事件驱动架构和三层分类框架都提供了值得参考的模式。特别是其"主动而非被动"的设计哲学——让AI系统在用户注意力转移后继续工作——可能是下一代个人AI助手的重要特征。