章节 01
导读:KCSAT-ML——基于真实人类难度信号的推理模型评估新基准
KCSAT-ML是基于韩国高考(KCSAT)十年数学真题构建的推理模型评估基准,核心优势在于引入真实人类难度信号(官方逐题错误率,来自数十万考生数据);提出DRG指标揭示模型与人类难度感知的对齐差异;发现测试时缩放的双面效应等关键结论,为数学推理模型评估提供新视角。
正文
韩国高考数学十年真题构建新基准,引入DRG指标揭示模型在难度对齐上的差异,发现测试时缩放的双面效应
章节 01
KCSAT-ML是基于韩国高考(KCSAT)十年数学真题构建的推理模型评估基准,核心优势在于引入真实人类难度信号(官方逐题错误率,来自数十万考生数据);提出DRG指标揭示模型与人类难度感知的对齐差异;发现测试时缩放的双面效应等关键结论,为数学推理模型评估提供新视角。
章节 02
现有数学推理基准普遍缺乏基于真实人类表现的逐题难度信号,多依赖启发式估计或假设题目难度相当,导致:准确率指标误导(相同准确率模型错误类型差异大)、难度感知缺失(无法区分模型在人类难易题上的错误分布)、能力评估片面(忽视人机难度对齐)。
章节 03
覆盖2014-2025年韩国高考数学664题,核心子集339题含官方逐题错误率(累计数百万考生样本),难度覆盖完整谱系,避免主观偏差。
难度对齐推理增益(DRG):衡量模型错误与人类难题的重合度。高DRG表示模型错误集中在人类难题(与人类难度感知对齐),低DRG则相反,揭示准确率无法捕捉的模型差异。
章节 04
章节 05
章节 06
章节 07
KCSAT-ML通过真实人类难度信号和DRG指标,填补了现有基准的空白;其发现对理解模型真实能力、优化推理策略具有重要价值。随着推理模型在教育、科研等领域应用扩大,难度感知能力的优化将成为关键研究方向。