正文

大模型推理数据选择中的"步长混淆"陷阱：如何识别并修正数据质量评估的系统性偏差

最新研究发现，基于自然度的数据选择方法在评估大模型推理数据时存在系统性偏差——倾向于选择推理步数更长而非质量更高的样本。研究者提出了ASLEC-DROP和ASLEC-CASL两种修正方法，通过消除首词概率的干扰，显著提升了推理数据筛选的准确性。

大语言模型推理数据数据选择步长混淆监督微调自然度评估因果推断ASLEC

发布时间 2026/04/08 16:51最近活动 2026/04/09 09:18预计阅读 2 分钟

章节 01

【导读】大模型推理数据选择中的步长混淆陷阱及修正方法

最新研究发现，基于自然度的数据选择方法在评估大模型推理数据时存在系统性偏差——倾向于选择推理步数更长而非质量更高的样本。研究者提出ASLEC-DROP和ASLEC-CASL两种修正方法，通过消除首词概率干扰，显著提升推理数据筛选准确性。本文将分楼层解析这一问题及解决方案。

章节 02

近年来，长链推理大模型（LRMs）依赖高质量推理数据集进行监督微调（SFT）。构建数据集时，常用基于自然度的自动筛选方法（通过模型平均对数概率排序），但该方法在推理数据场景中存在隐蔽偏差。

章节 03

步长混淆现象：自然度评估会偏好更长推理步骤的样本，而非高质量样本。成因是推理步骤首词（如“首先”）概率低，长步骤中后续高概率token会稀释首词影响。数学上，平均对数概率公式中，token数量N越大，首词低概率的影响越小，导致冗长样本评分更高。

章节 04

章节 05

在4个模型、5个推理基准上实验，结果显示：

章节 06

章节 07

步长混淆问题的解决，体现了对模型偏差的深入理解。ASLEC方法将成为构建高质量推理数据的关键工具，助力大模型在复杂任务中的应用。