正文

SystemsBench：评估大语言模型系统思维能力的开源基准框架

SystemsBench 是一个创新的开源评估框架，专门用于测试大语言模型和智能代理在系统思维方面的真实能力。它基于 Donella Meadows 的系统思维理论，通过五维评分体系和九阶段递归引擎，实现对模型系统推理能力的深度评估。

SystemsBench系统思维大语言模型评估基准测试Donella Meadows系统动力学AI安全开源框架递归引擎SenseRun

发布时间 2026/06/13 14:15最近活动 2026/06/13 14:18预计阅读 3 分钟

章节 01

SystemsBench：开源大语言模型系统思维评估框架导读

SystemsBench是一个创新的开源评估框架，专门用于测试大语言模型和智能代理的系统思维能力。它基于Donella Meadows的系统思维理论，通过五维评分体系（存量与流量理解、反馈回路识别、时间延迟感知、杠杆点定位、范式反思）和九阶段递归引擎（SenseRun仪式）实现深度评估，且具备自我进化、自我修正的特性。项目由InitiumBuilders/Outlier.Systems维护，开源地址为https://github.com/InitiumBuilders/SystemsBench。

章节 02

为什么系统思维评估对大语言模型至关重要

当前大语言模型基准测试多关注知识记忆和模式匹配，缺乏对复杂系统理解能力的评估。系统思维（理解存量流量、反馈回路、时间延迟、杠杆点及深层范式）是区分"聪明计算器"与"真正理解者"的关键。SystemsBench的独特之处在于它是活系统，能自我进化而非静态测试集，将系统思维纪律应用于自身。

章节 03

SystemsBench的核心设计理念与递归自我改进机制

核心设计理念

继承Meadows理论：围绕其系统干预层级（尤其是杠杆点理论）展开评估。
五维评估体系：覆盖存量与流量、反馈回路、时间延迟、杠杆点、范式反思五个维度。

递归自我改进引擎（SenseRun仪式）

九阶段流程：SENSE→CRITIQUE→RESEARCH→PROPOSE→REVIEW→APPLY→CALIBRATE→LOG→RECURSE。

可逆性：每次APPLY生成Git提交，支持干净回滚。
治理门控：累加性变更自动应用，结构性变更需人工批准。

章节 04

SystemsBench的项目架构与文件组织

SystemsBench的代码库结构体现系统思维：

文档类：SystemsBenchOnePage.MD（快速入门）、SystemsBenchStructure.MD（评分体系/题目格式）、SystemsBenchEngine.MD（递归引擎）等。
功能目录：engine/（可执行SenseRun引擎）、items/（题目库）、rubrics/（评分标准）、logs/runs/（SenseRun日志）等。该结构既是工具也是系统思维活教材。

章节 05

SystemsBench的防污染措施与当前发展状态

防污染与评估诚信

标注透明：当前v0.5.0（Genesis+）研究预览阶段，黄金标准集临时（1/30，合成评分器），诚实标注而非虚假认证，无法校准指标标注为UNCALIBRATED。
元问题应对：通过递归自我应用解决"谁评估评估者"问题，保持谦逊开放。

当前状态

已完成6次SenseRun日志记录，处于快速迭代期，由Outlier.Systems维护。

章节 06

SystemsBench的实际意义与社区参与建议

实际意义

AI开发者：揭示模型"如何思考"，助力智能代理设计（避免灾难性失败）、多智能体协调、AI安全研究（识别盲点）。
教育：作为系统思维学习资源，演示系统动力学原理。

建议

项目采用开源模式，欢迎社区贡献，共同推动框架进化。

章节 07

SystemsBench：从静态测验到动态系统思维评估的转向

SystemsBench代表大语言模型评估的重要转向：从静态知识测验到动态能力观察，从孤立指标到系统整体理解。其价值不仅在于测量内容，更在于测量方式及持续自我改进的评估哲学。在AI快速发展时代，这种自我反思的态度比具体分数更具意义。