章节 01
【导读】大模型推理数据选择中的步长混淆陷阱及修正方法
最新研究发现,基于自然度的数据选择方法在评估大模型推理数据时存在系统性偏差——倾向于选择推理步数更长而非质量更高的样本。研究者提出ASLEC-DROP和ASLEC-CASL两种修正方法,通过消除首词概率干扰,显著提升推理数据筛选准确性。本文将分楼层解析这一问题及解决方案。
正文
最新研究发现,基于自然度的数据选择方法在评估大模型推理数据时存在系统性偏差——倾向于选择推理步数更长而非质量更高的样本。研究者提出了ASLEC-DROP和ASLEC-CASL两种修正方法,通过消除首词概率的干扰,显著提升了推理数据筛选的准确性。
章节 01
最新研究发现,基于自然度的数据选择方法在评估大模型推理数据时存在系统性偏差——倾向于选择推理步数更长而非质量更高的样本。研究者提出ASLEC-DROP和ASLEC-CASL两种修正方法,通过消除首词概率干扰,显著提升推理数据筛选准确性。本文将分楼层解析这一问题及解决方案。
章节 02
近年来,长链推理大模型(LRMs)依赖高质量推理数据集进行监督微调(SFT)。构建数据集时,常用基于自然度的自动筛选方法(通过模型平均对数概率排序),但该方法在推理数据场景中存在隐蔽偏差。
章节 03
步长混淆现象:自然度评估会偏好更长推理步骤的样本,而非高质量样本。成因是推理步骤首词(如“首先”)概率低,长步骤中后续高概率token会稀释首词影响。数学上,平均对数概率公式中,token数量N越大,首词低概率的影响越小,导致冗长样本评分更高。
章节 04
章节 05
在4个模型、5个推理基准上实验,结果显示:
章节 06
章节 07
步长混淆问题的解决,体现了对模型偏差的深入理解。ASLEC方法将成为构建高质量推理数据的关键工具,助力大模型在复杂任务中的应用。