# ArxivRoll：用大模型评估大模型，如何识别"数据污染"导致的分数虚高？

> AAAI 2026论文开源项目ArxivRoll提出了一套动态基准测试框架，通过从arXiv实时抓取论文并构建私有SCP任务，检测大语言模型在公开基准测试中的"作弊"行为，量化评估分数中真实能力与数据污染各自所占的比例。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-05-18T12:13:08.000Z
- 最近活动: 2026-05-18T12:18:43.707Z
- 热度: 150.9
- 关键词: 大语言模型, 基准测试, 数据污染, arXiv, 机器学习评估, AAAI 2026, 动态基准, 模型能力评估
- 页面链接: https://www.zingnex.cn/forum/thread/arxivroll
- Canonical: https://www.zingnex.cn/forum/thread/arxivroll
- Markdown 来源: ingested_event

---

# ArxivRoll：用大模型评估大模型，如何识别"数据污染"导致的分数虚高？\n\n## 背景：当基准测试不再可信\n\n大语言模型（LLM）的能力评估一直是AI领域的核心议题。从GLUE到MMLU，从HumanEval到GSM8K，这些基准测试构成了我们理解模型能力的标尺。然而，一个日益严重的问题正在侵蚀这些标尺的可靠性——**数据污染**（Data Contamination）。\n\n所谓数据污染，指的是模型的训练语料中包含了测试集的内容。当GPT-4在2022年4月完成训练后，网络上出现的任何基准测试题目都可能被后续的模型在训练时"看到"。这意味着，一个模型可能在测试时表现优异，并非因为它真正掌握了相关能力，而只是因为它"背过答案"。\n\n传统的应对策略包括构建新的测试集、使用动态更新的题库，但这些方法往往治标不治本。更严重的是，我们甚至无法准确量化"有多少分数是真实的，有多少是作弊得来的"。这正是ArxivRoll项目试图解决的核心问题。\n\n## 项目概述：动态私有基准测试框架\n\nArxivRoll是由格拉茨工业大学（TU Graz）和浙江大学的研究者开发的一套**动态基准测试流水线**（Dynamic Benchmark Pipeline），相关论文已被AAAI 2026接收。该项目的核心思想是：**利用arXiv上源源不断产生的新论文，构建模型"不可能见过"的私有测试任务**。\n\n项目的名称"ArxivRoll"蕴含了其工作机制——像卷轴一样不断滚动更新，从arXiv这个全球最大的预印本论文库中持续获取最新研究成果，并将其转化为可测试的任务。\n\n### 核心设计理念\n\nArxivRoll的设计基于一个关键观察：arXiv每天都会发布数百篇新的学术论文，这些论文的内容在发布前不可能被任何已训练完成的模型获取。因此，基于这些新鲜论文构建的测试任务，可以确保模型是在真正理解内容，而非依赖记忆。\n\n项目采用**"一次性使用"（One-Time-Pad）**的哲学：每个测试轮次（Round）的任务在评估完成后才会公开，避免任务泄露导致的后续污染。\n\n## SCP任务：三种测试范式\n\nArxivRoll的核心创新在于其**SCP任务框架**，将学术论文内容转化为三种不同类型的测试任务：\n\n### S - Sequencing（排序任务）\n\n排序任务要求模型将打乱顺序的文本片段重新排列成正确的逻辑顺序。具体来说，系统会从论文中提取一个包含多个句子的段落，将其切分为3个语义块并随机打乱，模型需要输出正确的排列顺序。\n\n这种任务考验的是模型对学术文本逻辑结构的深层理解能力。仅仅依靠关键词匹配或表面模式识别很难完成这类任务，因为正确的排序需要理解论证的递进关系、实验描述的先后顺序等。\n\n### C - Cloze（完形填空）\n\n完形填空任务在较长的段落中遮蔽（mask）3个句子，要求模型从候选选项中选择正确的句子填入空白处。系统使用TF-IDF检索和向量化技术从相似论文中生成干扰项，确保选项具有合理的迷惑性。\n\n这一任务模拟了学术阅读中的"语境推断"能力——当读到一篇论文的某个部分时，能否根据上下文预测作者接下来会说什么。\n\n### P - Prediction（预测任务）\n\n预测任务要求模型在给定前文的情况下，从多个候选片段中选择最可能的真实后续内容。与排序任务不同，预测任务更关注模型对学术写作模式的理解，包括章节过渡、结论推导等。\n\n## 技术实现：从论文到测试集\n\nArxivRoll的技术架构包含多个精心设计的模块，构成了一条完整的流水线：\n\n### 1. 论文爬取与预处理\n\n`spider_arxiv.py`模块负责通过arXiv的OAI-PMH API按学科领域（cs、math、physics等8个领域）和时间段批量获取论文元数据和HTML全文。系统尊重arXiv的API使用规范，在请求之间设置合理的延迟。\n\n获取的原始HTML文本经过`post_process_paper_text.py`清洗和分段处理，提取出可用于构建任务的文本片段。\n\n### 2. 任务构建引擎\n\n`constructor.py`和`scp.py`实现了SCP任务的核心生成逻辑。对于每个学科领域，系统分别生成Sequencing、Cloze、Prediction三种任务类型，共计24个私有任务（8领域 × 3任务类型）。\n\n任务构建参数经过精心设计：\n- 排序任务使用2-gram切分，最小250字符\n- 完形填空使用5-gram切分，最小400字符\n- 预测任务使用1-gram切分，最小100字符\n\n这些参数确保了任务既有足够的挑战性，又不会因为文本过短而失去意义。\n\n### 3. 评估与结果聚合\n\n项目使用`lm_eval`框架进行评估，支持开源模型（通过Hugging Face）和闭源API模型（通过OpenRouter）。评估结果经过`file_trans.py`和聚合脚本整理成标准化的格式，便于后续分析。\n\n## 轮次机制：时间窗口与版本控制\n\nArxivRoll采用**轮次（Round）**机制组织测试，每个轮次覆盖一个固定的时间窗口：\n\n| 轮次 | 时间窗口 | 状态 |\n|------|----------|------|\n| 2024b | 2024年4月-9月 | 已完成 |\n| 2025a | 2025年1月-6月 | 进行中 |\n| 2026a | 2025年9月-2026年4月 | 计划中 |\n\n每个轮次包含8个学科领域（计算机科学、数学、物理、统计、量化金融、电气工程、定量生物、经济学），每个领域3种SCP任务，总计24个独立任务。\n\n这种设计允许研究者追踪模型能力随时间的变化，以及不同模型在"新鲜"学术内容上的表现差异。\n\n## 研究发现：模型真的在"作弊"吗？\n\n虽然ArxivRoll本身是一个工具框架，但其设计理念已经暗示了一些令人深思的结论。论文标题直接提出了尖锐的问题："How Much Do Large Language Models Cheat on Evaluation?"（大语言模型在评估中作弊了多少？）\n\n通过对比模型在公开基准和ArxivRoll私有任务上的表现，研究者可以量化"分数虚高"的程度。如果一个模型在MMLU上得分90%，但在ArxivRoll的同期任务上只有60%，那30%的差距很可能就反映了数据污染的影响。\n\n更重要的是，ArxivRoll提供了一种**持续监控**的机制。随着新论文的不断发布，新的测试轮次可以不断生成，确保评估始终基于"模型不可能见过"的内容。\n\n## 使用指南：如何运行ArxivRoll\n\n项目提供了完整的复现环境：\n\n```bash\n# 创建conda环境\nconda env create -f robench.yaml\nconda activate robench\n\n# 或pip安装\npip install -r re.txt\n\n# 克隆评估框架\ngit clone https://github.com/liangzid/harness-4-arxivrollbench\ncd harness-4-arxivrollbench\npip install -e .\n```\n\n运行流程包括：\n1. 爬取论文：`python spider_arxiv.py`\n2. 构建任务：`python 1.run_vanilla_construct.py`\n3. 评估模型：`bash eval/test_new_models.sh`（开源模型）或 `bash eval/1.3.closeAI_newscripts_router.sh`（API模型）\n4. 聚合结果并生成排行榜\n\n## 局限与未来方向\n\nArxivRoll虽然创新，但也存在一些局限性：\n\n**学科覆盖的偏向性**：arXiv主要覆盖STEM领域，人文社科类论文相对较少，这限制了评估的全面性。\n\n**任务类型的单一性**：SCP任务主要测试文本理解和推理能力，对数学计算、代码生成等其他能力的评估有限。\n\n**英语中心主义**：arXiv论文以英文为主，对非英语模型的评估可能不够公平。\n\n未来的改进方向可能包括：扩展数据源（如SSRN、PubMed Central）、增加多语言支持、开发更多任务类型（如基于论文图表的问答）、以及建立更细粒度的能力分解框架。\n\n## 结语：重建评估的信任\n\nArxivRoll的价值不仅在于提供了一个新的基准测试工具，更在于它提出了一种**思维范式**的转换——从"如何防止模型看过测试集"到"如何确保测试集是模型绝对没看过的"。\n\n在LLM能力飞速发展的今天，我们需要更加谨慎地对待每一个亮眼的基准分数。ArxivRoll提醒我们：**真正重要的不是模型在已知任务上表现多好，而是在面对未知内容时展现出的真实理解和推理能力**。\n\n对于研究者来说，ArxivRoll是一个值得关注的项目；对于整个AI社区来说，它是一面镜子，照出了当前评估体系中潜藏的问题，也指明了改进的方向。