# ArxivRoll：基于一次性填充框架的大模型评估作弊检测工具

> ArxivRoll是一个动态基准测试管道，用于审计大语言模型评估分数中可能因公共基准数据污染而被夸大的部分。该项目采用SCP（序列排序、完形填空、片段预测）任务框架，将新鲜arXiv论文转换为私有评估任务，在模型完成评估后才公开基准数据。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-18T12:13:08.000Z
- 最近活动: 2026-05-18T12:19:11.147Z
- 热度: 150.9
- 关键词: 大语言模型, 评估基准, 数据污染, SCP任务, arXiv, 动态评估, 学术理解, 模型作弊检测
- 页面链接: https://www.zingnex.cn/forum/thread/arxivroll-9a0b42d6
- Canonical: https://www.zingnex.cn/forum/thread/arxivroll-9a0b42d6
- Markdown 来源: ingested_event

---

# ArxivRoll：基于一次性填充框架的大语言模型评估作弊检测工具

## 背景与问题

大语言模型的能力评估一直面临着数据污染（benchmark contamination）的严峻挑战。当模型在训练过程中接触到了公开的基准测试数据，其评估分数就无法真实反映模型的泛化能力。这个问题在学术界和工业界都备受关注——我们看到的 impressive 分数，到底有多少是真实的推理能力，又有多少只是"记住"了测试答案？

AAAI 2026 收录的论文《How Much Do Large Language Model Cheat on Evaluation?》正是针对这一问题提出了创新性的解决方案。ArxivRoll 是该研究的官方开源实现，它提供了一个完整的动态基准测试管道，专门用于检测和量化大语言模型评估中的分数虚高现象。

## 核心设计理念

ArxivRoll 的设计理念可以用一句话概括："在评估完成前，没有人知道测试内容是什么。"这种思路借鉴了密码学中的一次性填充（One-Time-Pad）概念，确保评估数据的私密性直到评估结束。

项目的核心创新在于将新鲜发表的 arXiv 论文转换为私有的 SCP 评估任务。SCP 代表三种互补的评估模式：

- **S（Sequencing，序列排序）**：要求模型对打乱的文本片段进行正确排序，测试模型对学术文本结构和逻辑连贯性的理解能力。
- **C（Cloze，完形填空）**：在较长的学术段落中遮盖关键句子，让模型从候选选项中选择正确的填充内容。
- **P（Prediction，片段预测）**：给定上下文，要求模型预测接下来最可能出现的文本片段。

这三种任务形式共同构成了对模型真实学术理解能力的全方位检验，而且由于任务来源于最新的学术论文，模型几乎不可能在训练数据中提前"见过"这些具体内容。

## 技术实现与工作流程

ArxivRoll 的实现包含多个精心设计的模块，形成了一个完整的评估闭环：

### 数据采集层

项目通过 `spider_arxiv.py` 脚本从 arXiv 抓取最新发表的学术论文。采集过程遵循 arXiv API 的使用规范，包括单连接限制和适当的请求间隔。目前支持八个主要学科领域：计算机科学（cs）、经济学（econ）、电气工程与系统科学（eess）、数学（math）、物理学（physics）、定量生物学（q-bio）、定量金融（q-fin）和统计学（stat）。

每个采集周期覆盖六个月的时间窗口，确保获取足够数量且时效性强的论文数据。采集结果以 JSON 格式存储，包含论文标题、摘要、关键词和正文内容。

### 基准构建引擎

`constructor.py` 是项目的核心构建引擎，负责将原始论文文本转换为标准化的 SCP 评估任务。构建过程采用以下参数配置：

- **序列排序任务**：使用 2-gram 窗口，要求文本片段至少包含 250 个字符，从多句段落中选取并打乱 3 个片段
- **完形填空任务**：使用 5-gram 窗口，要求文本片段至少包含 400 个字符，在较长段落中遮盖 3 个句子
- **片段预测任务**：使用 1-gram 窗口，要求文本片段至少包含 100 个字符，从检索到的候选选项中选择正确的后续片段

构建过程中还使用了 TF-IDF 检索技术来生成干扰项，确保评估任务的难度适中且具有区分度。

### 评估与发布机制

ArxivRoll 采用独特的"私有-公共"双轨制管理评估数据。在评估阶段，只有任务发布者能够访问完整的基准内容；参与评估的模型只能接收到经过脱敏处理的任务版本。评估完成后，过期的基准数据才会被公开发布，供研究社区验证和分析。

这种机制确保了评估的公平性和可信度——即使是最先进的模型也无法通过"记忆"来获得高分，因为它们在评估前无法接触到具体的测试内容。

## 实际应用与评估结果

ArxivRoll 已经发布了多个评估周期（round）的数据：

- **2024b 周期**：覆盖 2024 年 4 月至 9 月的论文
- **2025a 周期**：覆盖 2025 年 1 月至 6 月的论文
- **2026a 周期**（计划中）：将覆盖 2025 年 9 月至 2026 年 4 月的论文

每个完整周期包含 24 个私有任务（8 个学科领域 × 3 种任务类型），为全面评估模型的学术理解能力提供了丰富的测试场景。

项目还提供了与 Hugging Face 数据集格式的兼容支持，以及基于 lm-eval-harness 的评估脚本，方便研究人员快速集成到现有的评估流程中。

## 技术细节与使用方式

ArxivRoll 的代码库采用模块化设计，主要组件包括：

- **数据清洗与分段**：`post_process_paper_text.py` 负责将原始 HTML 文本转换为可用于构建任务的干净片段
- **向量检索**：`Vectorize.py` 和 `SearchBySomething.py` 提供基于 TF-IDF 的文本向量化和相似度检索功能
- **评估脚本**：支持开源模型（通过本地推理）和闭源模型（通过 OpenRouter API）的并行评估
- **结果聚合**：自动收集和整理各模型的评估结果，生成标准化的分数报告

对于希望复现或扩展该工作的研究人员，项目提供了详细的 conda 环境配置和 pip 依赖列表。同时，配套的开源评估工具 `harness-4-arxivrollbench` 也单独维护，确保与主流评估框架的兼容性。

## 意义与启示

ArxivRoll 的出现为大语言模型评估领域带来了重要的方法论革新。它不仅仅是一个工具，更是一种思维方式的转变——从依赖静态、公开的基准测试，转向动态、私有的评估机制。

对于模型开发者而言，ArxivRoll 提供了一个更严格的"试金石"，帮助识别真正具备学术理解能力的模型，而非仅仅是在训练数据上"过拟合"的模型。对于评估研究者而言，它展示了如何通过工程手段来缓解数据污染问题，为构建更可信的 AI 评估体系提供了实践范例。

随着大语言模型能力的不断提升，评估方法也必须与时俱进。ArxivRoll 所代表的动态基准测试思路，很可能成为未来模型评估的标准实践之一。