正文

ArxivRoll：用大模型评估大模型，如何识别"数据污染"导致的分数虚高？

AAAI 2026论文开源项目ArxivRoll提出了一套动态基准测试框架，通过从arXiv实时抓取论文并构建私有SCP任务，检测大语言模型在公开基准测试中的"作弊"行为，量化评估分数中真实能力与数据污染各自所占的比例。

大语言模型基准测试数据污染arXiv机器学习评估AAAI 2026动态基准模型能力评估

发布时间 2026/05/18 20:13最近活动 2026/05/18 20:18预计阅读 2 分钟

章节 01

ArxivRoll项目导读：动态基准框架解决大模型评估数据污染问题

AAAI 2026接收的开源项目ArxivRoll提出动态基准测试框架，针对大语言模型（LLM）评估中的数据污染问题，通过从arXiv实时抓取新论文构建私有SCP任务，检测模型在公开基准中的“作弊”行为，量化真实能力与数据污染所占分数比例。该项目旨在重建评估的可靠性，确保测试基于模型“不可能见过”的新鲜内容。

章节 02

背景：数据污染侵蚀基准测试可靠性

LLM能力评估依赖GLUE、MMLU等基准测试，但数据污染（训练语料含测试集内容）导致分数虚高——模型可能因“背过答案”表现优异而非真实掌握能力。传统应对策略（建新测试集、动态题库）治标不治本，且无法量化污染比例，这是ArxivRoll要解决的核心问题。

章节 03

核心方法：动态私有SCP任务框架与轮次机制

ArxivRoll是动态基准流水线，利用arXiv新论文构建私有任务（模型不可能见过），采用“一次性使用”哲学避免任务泄露。核心为SCP任务框架：

排序任务（S）：打乱文本片段重排，考验逻辑结构理解；
完形填空（C）：遮蔽句子选正确项，模拟语境推断；
预测任务（P）：选后续内容，理解写作模式。技术流程含论文爬取预处理、任务构建、评估聚合；轮次机制按时间窗口组织（如2024b已完成，2025a进行中），覆盖8学科领域，追踪模型能力变化。

章节 04

研究发现：量化数据污染导致的分数虚高

通过对比模型在公开基准与ArxivRoll私有任务的表现，可量化分数虚高中数据污染的占比（如MMLU得分90% vs ArxivRoll 60%，差距或为污染影响）。该框架提供持续监控机制，随新论文发布生成新测试轮次，确保评估基于新鲜内容。

章节 05

使用指南：环境搭建与运行步骤

项目提供完整复现环境：

环境搭建：conda（conda env create -f robench.yaml）或pip（pip install -r re.txt）；
克隆评估框架：git clone https://github.com/liangzid/harness-4-arxivrollbench；
运行流程：爬取论文→构建任务→评估模型→聚合结果生成排行榜。

章节 06

局限与未来改进方向

局限：

学科偏向STEM领域，人文社科覆盖少；
任务类型单一（侧重文本理解推理）；
英语中心，对非英语模型不公平。 未来方向：扩展数据源（SSRN、PubMed Central）、增加多语言支持、开发图表问答等新任务、细化能力分解框架。

章节 07

结语：重建评估信任与范式转换

ArxivRoll不仅是工具，更推动评估思维范式转换——从“防止模型看过测试集”到“确保测试集绝对未被看过”。在LLM快速发展的今天，需谨慎对待基准分数，真正重要的是模型面对未知内容的真实理解与推理能力。该项目为研究者提供工具，也为AI社区指明评估体系改进方向。

ArxivRoll：用大模型评估大模型，如何识别"数据污染"导致的分数虚高？

ArxivRoll项目导读：动态基准框架解决大模型评估数据污染问题

背景：数据污染侵蚀基准测试可靠性

核心方法：动态私有SCP任务框架与轮次机制

研究发现：量化数据污染导致的分数虚高

使用指南：环境搭建与运行步骤

局限与未来改进方向

结语：重建评估信任与范式转换

继续阅读

SignalCut：将AI搜索可见性缺口转化为视频营销活动的智能工具

AWS开源AI搜索引用分析系统：追踪品牌在AI搜索引擎中的曝光度

Next.js 应用的 SEO 与 GEO 一体化优化方案：从搜索引擎到 AI 助手的全面可见性

百原GEO Platform技术白皮书：生成式引擎优化（GEO）的SaaS工程实践