章节 01
【导读】KTB-300:聚焦LLM高阶推理能力的硬核基准测试集
KTB-300(Karen Tonoyan Benchmark)是由Karen86Tonoyan开发的基准测试集,来源平台为GitHub,原始标题为LLM-Advanced-Reasoning-Hard-Karen-Tonoyan-Benchmark,发布时间为2026-06-12。该测试集包含300道精心设计的难题,专门针对大语言模型(LLM)的七大关键能力进行评估:高级推理、不确定性检测与表达、幻觉抵抗、安全性、因果推断、歧义处理以及长上下文一致性。其核心目标是评估模型的真实推理能力而非表面表现,帮助区分顶尖模型的深层能力边界。