正文

KCSAT-ML：基于真实人类难度信号的推理模型评估基准

韩国高考数学十年真题构建新基准，引入DRG指标揭示模型在难度对齐上的差异，发现测试时缩放的双面效应

数学推理基准测试韩国高考难度对齐测试时缩放DRG指标人机对齐

发布时间 2026/06/09 12:25最近活动 2026/06/10 09:21预计阅读 2 分钟

章节 01

导读：KCSAT-ML——基于真实人类难度信号的推理模型评估新基准

KCSAT-ML是基于韩国高考（KCSAT）十年数学真题构建的推理模型评估基准，核心优势在于引入真实人类难度信号（官方逐题错误率，来自数十万考生数据）；提出DRG指标揭示模型与人类难度感知的对齐差异；发现测试时缩放的双面效应等关键结论，为数学推理模型评估提供新视角。

章节 02

现有数学推理基准普遍缺乏基于真实人类表现的逐题难度信号，多依赖启发式估计或假设题目难度相当，导致：准确率指标误导（相同准确率模型错误类型差异大）、难度感知缺失（无法区分模型在人类难易题上的错误分布）、能力评估片面（忽视人机难度对齐）。

章节 03

覆盖2014-2025年韩国高考数学664题，核心子集339题含官方逐题错误率（累计数百万考生样本），难度覆盖完整谱系，避免主观偏差。

难度对齐推理增益（DRG）：衡量模型错误与人类难题的重合度。高DRG表示模型错误集中在人类难题（与人类难度感知对齐），低DRG则相反，揭示准确率无法捕捉的模型差异。

章节 04

章节 05

章节 06

章节 07

KCSAT-ML通过真实人类难度信号和DRG指标，填补了现有基准的空白；其发现对理解模型真实能力、优化推理策略具有重要价值。随着推理模型在教育、科研等领域应用扩大，难度感知能力的优化将成为关键研究方向。