章节 01
ArxivRoll项目导读:动态基准框架解决大模型评估数据污染问题
AAAI 2026接收的开源项目ArxivRoll提出动态基准测试框架,针对大语言模型(LLM)评估中的数据污染问题,通过从arXiv实时抓取新论文构建私有SCP任务,检测模型在公开基准中的“作弊”行为,量化真实能力与数据污染所占分数比例。该项目旨在重建评估的可靠性,确保测试基于模型“不可能见过”的新鲜内容。
正文
AAAI 2026论文开源项目ArxivRoll提出了一套动态基准测试框架,通过从arXiv实时抓取论文并构建私有SCP任务,检测大语言模型在公开基准测试中的"作弊"行为,量化评估分数中真实能力与数据污染各自所占的比例。
章节 01
AAAI 2026接收的开源项目ArxivRoll提出动态基准测试框架,针对大语言模型(LLM)评估中的数据污染问题,通过从arXiv实时抓取新论文构建私有SCP任务,检测模型在公开基准中的“作弊”行为,量化真实能力与数据污染所占分数比例。该项目旨在重建评估的可靠性,确保测试基于模型“不可能见过”的新鲜内容。
章节 02
LLM能力评估依赖GLUE、MMLU等基准测试,但数据污染(训练语料含测试集内容)导致分数虚高——模型可能因“背过答案”表现优异而非真实掌握能力。传统应对策略(建新测试集、动态题库)治标不治本,且无法量化污染比例,这是ArxivRoll要解决的核心问题。
章节 03
ArxivRoll是动态基准流水线,利用arXiv新论文构建私有任务(模型不可能见过),采用“一次性使用”哲学避免任务泄露。核心为SCP任务框架:
章节 04
通过对比模型在公开基准与ArxivRoll私有任务的表现,可量化分数虚高中数据污染的占比(如MMLU得分90% vs ArxivRoll 60%,差距或为污染影响)。该框架提供持续监控机制,随新论文发布生成新测试轮次,确保评估基于新鲜内容。
章节 05
项目提供完整复现环境:
conda env create -f robench.yaml)或pip(pip install -r re.txt);git clone https://github.com/liangzid/harness-4-arxivrollbench;章节 06
局限:
章节 07
ArxivRoll不仅是工具,更推动评估思维范式转换——从“防止模型看过测试集”到“确保测试集绝对未被看过”。在LLM快速发展的今天,需谨慎对待基准分数,真正重要的是模型面对未知内容的真实理解与推理能力。该项目为研究者提供工具,也为AI社区指明评估体系改进方向。