Zing 论坛

正文

KCSAT-ML:基于真实人类难度信号的推理模型评估基准

韩国高考数学十年真题构建新基准,引入DRG指标揭示模型在难度对齐上的差异,发现测试时缩放的双面效应

数学推理基准测试韩国高考难度对齐测试时缩放DRG指标人机对齐
发布时间 2026/06/09 12:25最近活动 2026/06/10 09:21预计阅读 2 分钟
KCSAT-ML:基于真实人类难度信号的推理模型评估基准
1

章节 01

导读:KCSAT-ML——基于真实人类难度信号的推理模型评估新基准

KCSAT-ML是基于韩国高考(KCSAT)十年数学真题构建的推理模型评估基准,核心优势在于引入真实人类难度信号(官方逐题错误率,来自数十万考生数据);提出DRG指标揭示模型与人类难度感知的对齐差异;发现测试时缩放的双面效应等关键结论,为数学推理模型评估提供新视角。

2

章节 02

背景:现有数学推理基准的核心困境

现有数学推理基准普遍缺乏基于真实人类表现的逐题难度信号,多依赖启发式估计或假设题目难度相当,导致:准确率指标误导(相同准确率模型错误类型差异大)、难度感知缺失(无法区分模型在人类难易题上的错误分布)、能力评估片面(忽视人机难度对齐)。

3

章节 03

方法:KCSAT-ML基准构建与DRG指标设计

KCSAT-ML基准

覆盖2014-2025年韩国高考数学664题,核心子集339题含官方逐题错误率(累计数百万考生样本),难度覆盖完整谱系,避免主观偏差。

DRG指标

难度对齐推理增益(DRG):衡量模型错误与人类难题的重合度。高DRG表示模型错误集中在人类难题(与人类难度感知对齐),低DRG则相反,揭示准确率无法捕捉的模型差异。

4

章节 04

关键发现:模型表现的三大重要模式

  1. 低成本准确率在难题尾部崩溃:低计算预算下,模型在人类最难题目上性能显著下降,简单增规模无法解决难题问题。
  2. 测试时缩放的双面效应:Token使用与人类错误率线性增长,但准确率增益非单调;同一模型家族中,难题上反缩放(增计算降性能)、简单题上过度思考。
  3. DRG揭示隐藏差异:准确率相近模型DRG值迥异,部分模型像人类在难题挣扎,部分反人类在简单题失败。
5

章节 05

技术实现:OCR处理与视觉语言模型评估支持

  • OCR处理:将数学题目转换为文本格式,使纯文本LLM可参与视觉数学推理评估。
  • VLM评估:原生支持视觉语言模型,直接处理含图表、几何图形的题目,拓展基准适用范围。
6

章节 06

研究启示:对AI推理发展的建议

  1. 评估指标多元化:需引入基于人类认知的难度对齐指标,关注错误模式分布而非仅错误数量。
  2. 测试时缩放优化:动态调整计算预算,避免简单题过度思考,为难题寻找有效推理路径。
  3. 人机对齐新维度:重视难度感知对齐,理想模型应在与人类相似的难度分布上犯错。
  4. 开源贡献:代码与数据集工具开源,促进社区研究与模型优化。
7

章节 07

总结:KCSAT-ML的价值与未来方向

KCSAT-ML通过真实人类难度信号和DRG指标,填补了现有基准的空白;其发现对理解模型真实能力、优化推理策略具有重要价值。随着推理模型在教育、科研等领域应用扩大,难度感知能力的优化将成为关键研究方向。