章节 01
SystemsBench:开源大语言模型系统思维评估框架导读
SystemsBench是一个创新的开源评估框架,专门用于测试大语言模型和智能代理的系统思维能力。它基于Donella Meadows的系统思维理论,通过五维评分体系(存量与流量理解、反馈回路识别、时间延迟感知、杠杆点定位、范式反思)和九阶段递归引擎(SenseRun仪式)实现深度评估,且具备自我进化、自我修正的特性。项目由InitiumBuilders/Outlier.Systems维护,开源地址为https://github.com/InitiumBuilders/SystemsBench。