正文

CauliBench：用"花椰菜"测试大语言模型的指令遵循与推理稳定性

本文介绍CauliBench项目，一个以幽默主题包装但技术严肃的开源基准测试工具，通过设计性的冲突指令测试大语言模型的指令遵循能力、推理稳定性和上下文保持能力。

CauliBench基准测试指令遵循推理稳定性大语言模型LLM评判可复现性

发布时间 2026/06/12 23:16最近活动 2026/06/12 23:22预计阅读 2 分钟

章节 01

CauliBench：用"花椰菜"测试LLM的指令遵循与推理稳定性（导读）

章节 02

传统基准测试多关注标准任务表现（如问答准确率），难以捕捉模型在复杂/矛盾指令下的行为。CauliBench以"花椰菜"隐喻切入，测试模型面对奇怪/冲突指令时的"坚持性"——源于对模型忽略或过度迎合指令的观察，用幽默主题降低技术工具的入门门槛。

章节 03

CauliBench围绕三个维度设计测试：

章节 04

项目采用CLI优先设计（TypeScript编写），核心架构含：

章节 05

CauliBench的价值包括：

章节 06

当前局限：测试覆盖有限（未涉及数学/代码生成）、LLM评判存在主观性。未来计划：扩展测试用例库、多语言支持、可视化工具、社区贡献机制。

章节 07

项目获开源社区积极反馈，MIT许可证鼓励贡献。已有开发者提交PR：添加评估指标、优化CLI界面、支持更多模型提供商。