# Mimosa：面向科学研究的进化型多智能体系统框架

> Mimosa框架通过动态工具发现、元编排器生成工作流拓扑、代码生成智能体执行子任务，实现科学研究的自动化多智能体协作，在ScienceAgentBench上达到43.1%成功率。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-03-30T20:35:57.000Z
- 最近活动: 2026-04-01T01:19:56.142Z
- 热度: 120.3
- 关键词: 多智能体系统, 自主科学研究, 智能体框架, 工作流进化, 科学自动化, MCP协议, 开源平台
- 页面链接: https://www.zingnex.cn/forum/thread/mimosa
- Canonical: https://www.zingnex.cn/forum/thread/mimosa
- Markdown 来源: ingested_event

---

# Mimosa：面向科学研究的进化型多智能体系统框架

## 自主科学研究的现状与挑战

自主科学研究（Autonomous Scientific Research, ASR）代表了人工智能在科研领域应用的前沿方向。近年来，随着大语言模型（LLM）能力的飞速提升和智能体（Agent）架构的日趋成熟，ASR系统已经能够协助研究人员完成从文献综述、实验设计到数据分析的多个环节。然而，当前大多数ASR系统存在一个根本性的局限：它们依赖于预定义的固定工作流和工具集。

这种固定性带来了严重的问题。科学研究本身就是一个不断探索未知、适应变化的过程。新的实验方法不断涌现，研究领域之间的交叉融合日益加深，研究问题本身也往往随着实验进展而演化。一个只能按照预设脚本运行的系统，难以应对这种动态变化的科研环境。当遇到预设工作流无法处理的新任务时，系统往往束手无策；当需要整合新的实验工具或数据源时，往往需要人工重新配置整个系统。

## Mimosa 框架的设计理念

针对上述困境，研究者提出了 Mimosa——一个能够自主进化的多智能体框架。Mimosa 的核心设计理念是：让系统能够根据任务需求自动合成特定的多智能体工作流，并通过实验反馈持续迭代优化这些工作流。这种进化能力使得 Mimosa 能够适应不断变化的科研任务，而非被限制在预设的固定模式中。

Mimosa 的设计体现了几个关键原则。首先是模块化与可扩展性，系统采用工具无关（tool-agnostic）的设计，可以灵活接入各种科学计算库和实验工具。其次是可审计性，系统完整记录每一次执行的轨迹，保存所有工作流的版本历史，支持研究人员审查和复现每一个分析步骤。最后是开放性，Mimosa 作为完全开源的平台发布，旨在为社区驱动的自主科学研究提供一个开放的基础设施。

## 核心架构：四大组件协同工作

Mimosa 的架构由四个核心组件协同构成，形成一个完整的自主科研循环。

**动态工具发现层**基于 Model Context Protocol（MCP）实现。MCP 是一种标准化的工具发现和调用协议，使得 Mimosa 能够在运行时动态发现和使用可用的工具。这意味着当新的科学计算库、数据库接口或实验设备接入系统时，Mimosa 无需重新配置即可识别并利用这些新能力。这种动态发现机制大大增强了系统的适应性和可扩展性。

**元编排器（Meta-Orchestrator）**负责生成工作流拓扑。面对一个科研任务，元编排器会分析任务的性质和需求，设计出一个由多个智能体协作完成的工作流结构。这个结构定义了各个智能体的角色、它们之间的数据流向，以及任务分解的方式。不同于固定的工作流模板，元编排器针对每个具体任务生成定制化的工作流拓扑。

**代码生成智能体**是工作流的执行单元。这些智能体不仅能够调用预定义的工具，还能够根据任务需求生成代码来操作科学软件库和计算资源。它们执行元编排器分配的子任务，进行数据处理、统计分析、模型训练或实验模拟等操作。代码生成能力使得智能体能够灵活应对各种计算任务，而不受限于固定的工具接口。

**LLM 评判器与反馈循环**构成了系统的学习机制。每次工作流执行完成后，评判器会对执行结果进行评分，并生成详细的反馈。这些反馈驱动工作流的迭代优化——哪些步骤执行得好、哪些需要改进、如何调整智能体之间的协作方式。通过这种持续的反馈-优化循环，Mimosa 的工作流能够随着执行经验的积累而不断进化。

## 实验评估：超越基线的性能表现

研究者在 ScienceAgentBench 基准测试上对 Mimosa 进行了评估，这是一个专门设计用于测试科学智能体能力的挑战性基准。使用 DeepSeek-V3.2 作为底层模型时，Mimosa 达到了 43.1% 的成功率。

这一成绩超越了多个对比基线。单智能体基线由于缺乏任务分解和多智能体协作，在复杂科研任务上表现受限；静态多智能体配置虽然引入了多个智能体，但固定的工作流结构无法适应任务的多样性。Mimosa 的动态工作流合成和进化能力，使其能够更好地应对 ScienceAgentBench 中多样化的科学任务。

更有趣的发现是，不同模型对多智能体分解和迭代学习的响应存在显著差异。这表明工作流进化的效果在很大程度上取决于底层执行模型的能力。某些模型可能更擅长代码生成但不太适合元推理，而另一些模型可能在任务分解上表现出色但在具体执行上有所欠缺。这种异质性提示我们在设计多智能体系统时需要考虑模型特性的匹配。

## 可审计性与科学可重复性

科学研究对可重复性和可审计性有着极高的要求。Mimosa 在这方面做了特别的设计：系统完整记录每一次执行的完整轨迹，包括工作流的结构、各个智能体的输入输出、工具调用记录、代码执行结果等。所有工作流的版本历史也被归档保存，研究人员可以随时回溯查看系统在某个时间点的行为。

这种全面的日志记录不仅支持事后审查和错误分析，也为科学可重复性提供了基础。其他研究人员可以根据 Mimosa 保存的执行记录，复现整个研究过程，验证结果的可靠性。在需要人机协作的场景中，领域专家可以审查智能体的工作流程，在关键环节提供指导或修正。

## 应用前景与社区价值

Mimosa 的模块化架构和工具无关设计，使其具有很强的通用性。理论上，任何可以通过计算方式完成的科学任务——从生物信息学分析到材料模拟，从天文数据处理到社会网络分析——都可以纳入 Mimosa 的处理范围。结合领域专家的指导，Mimosa 有潜力自动化广泛的跨学科科研任务。

作为完全开源的平台，Mimosa 的发布具有重要的社区价值。它为自主科学研究提供了一个开放的实验平台，研究人员可以在此基础上开发新的工具适配器、改进工作流生成算法、探索不同的反馈机制。这种开放协作的模式有望加速 ASR 领域的整体发展，推动自主科学研究从概念验证走向实际应用。