Zing 论坛

正文

ArxivRoll:用大模型评估大模型,如何识别"数据污染"导致的分数虚高?

AAAI 2026论文开源项目ArxivRoll提出了一套动态基准测试框架,通过从arXiv实时抓取论文并构建私有SCP任务,检测大语言模型在公开基准测试中的"作弊"行为,量化评估分数中真实能力与数据污染各自所占的比例。

大语言模型基准测试数据污染arXiv机器学习评估AAAI 2026动态基准模型能力评估
发布时间 2026/05/18 20:13最近活动 2026/05/18 20:18预计阅读 2 分钟
ArxivRoll:用大模型评估大模型,如何识别"数据污染"导致的分数虚高?
1

章节 01

ArxivRoll项目导读:动态基准框架解决大模型评估数据污染问题

AAAI 2026接收的开源项目ArxivRoll提出动态基准测试框架,针对大语言模型(LLM)评估中的数据污染问题,通过从arXiv实时抓取新论文构建私有SCP任务,检测模型在公开基准中的“作弊”行为,量化真实能力与数据污染所占分数比例。该项目旨在重建评估的可靠性,确保测试基于模型“不可能见过”的新鲜内容。

2

章节 02

背景:数据污染侵蚀基准测试可靠性

LLM能力评估依赖GLUE、MMLU等基准测试,但数据污染(训练语料含测试集内容)导致分数虚高——模型可能因“背过答案”表现优异而非真实掌握能力。传统应对策略(建新测试集、动态题库)治标不治本,且无法量化污染比例,这是ArxivRoll要解决的核心问题。

3

章节 03

核心方法:动态私有SCP任务框架与轮次机制

ArxivRoll是动态基准流水线,利用arXiv新论文构建私有任务(模型不可能见过),采用“一次性使用”哲学避免任务泄露。核心为SCP任务框架:

  1. 排序任务(S):打乱文本片段重排,考验逻辑结构理解;
  2. 完形填空(C):遮蔽句子选正确项,模拟语境推断;
  3. 预测任务(P):选后续内容,理解写作模式。 技术流程含论文爬取预处理、任务构建、评估聚合;轮次机制按时间窗口组织(如2024b已完成,2025a进行中),覆盖8学科领域,追踪模型能力变化。
4

章节 04

研究发现:量化数据污染导致的分数虚高

通过对比模型在公开基准与ArxivRoll私有任务的表现,可量化分数虚高中数据污染的占比(如MMLU得分90% vs ArxivRoll 60%,差距或为污染影响)。该框架提供持续监控机制,随新论文发布生成新测试轮次,确保评估基于新鲜内容。

5

章节 05

使用指南:环境搭建与运行步骤

项目提供完整复现环境:

  • 环境搭建:conda(conda env create -f robench.yaml)或pip(pip install -r re.txt);
  • 克隆评估框架:git clone https://github.com/liangzid/harness-4-arxivrollbench
  • 运行流程:爬取论文→构建任务→评估模型→聚合结果生成排行榜。
6

章节 06

局限与未来改进方向

局限

  1. 学科偏向STEM领域,人文社科覆盖少;
  2. 任务类型单一(侧重文本理解推理);
  3. 英语中心,对非英语模型不公平。 未来方向:扩展数据源(SSRN、PubMed Central)、增加多语言支持、开发图表问答等新任务、细化能力分解框架。
7

章节 07

结语:重建评估信任与范式转换

ArxivRoll不仅是工具,更推动评估思维范式转换——从“防止模型看过测试集”到“确保测试集绝对未被看过”。在LLM快速发展的今天,需谨慎对待基准分数,真正重要的是模型面对未知内容的真实理解与推理能力。该项目为研究者提供工具,也为AI社区指明评估体系改进方向。