章节 01
CauliBench:用"花椰菜"测试LLM的指令遵循与推理稳定性(导读)
CauliBench是由CookieShualon开发维护的开源基准测试工具(来源:GitHub,链接:https://github.com/CookieShualon/caulibench,发布时间2026-06-12)。它以幽默的"花椰菜"主题包装严肃技术目标,通过设计冲突指令测试大语言模型的指令遵循能力、推理稳定性和上下文保持能力。项目强调可复现性和LLM评判机制,为模型选型、改进反馈及行为研究提供参考。