正文

OLMo-Detect：多阶段大语言模型数据污染检测基准

首个覆盖预训练、中训练和后训练三阶段的LLM逐字记忆检测基准，包含9个领域、多尺寸模型评估和12种检测方法对比。

LLM数据污染数据泄露基准测试OLMo记忆检测RAG模型评估AI安全

发布时间 2026/06/11 19:07最近活动 2026/06/11 19:19预计阅读 3 分钟

章节 01

导读 / 主楼：OLMo-Detect：多阶段大语言模型数据污染检测基准

首个覆盖预训练、中训练和后训练三阶段的LLM逐字记忆检测基准，包含9个领域、多尺寸模型评估和12种检测方法对比。

章节 02

原作者与来源

原作者/维护者: LuckyDaydreamer
来源平台: GitHub
原始标题: OLMo-Detect: A Multi-Stage Benchmark for Verbatim Contamination Detection in Large Language Models
原始链接: https://github.com/LuckyDaydreamer/OLMo-Detect
发布时间: 2026年6月11日
相关论文: EMNLP 2026投稿

章节 03

研究背景与问题定义

大语言模型(LLM)的"数据污染"或"数据泄露"问题一直是评估领域的核心难题。当训练数据与测试数据存在重叠时，模型可能并非真正"理解"问题，而只是"背诵"了记忆中的答案。这种现象在学术基准测试、代码生成评估等场景中尤为严重。

然而，现有的污染检测研究存在几个关键局限：

阶段覆盖不全: 大多数研究仅关注预训练阶段，忽略了中训练(mid-training)和后训练(post-training)阶段的数据污染
领域单一: 缺乏跨领域的系统性评估
评估标准不一: 不同研究使用不同的污染定义和检测阈值，结果难以比较

OLMo-Detect正是为解决这些问题而设计的全面基准测试套件。

章节 04

三阶段全覆盖

OLMo-Detect基于OLMo 2训练流程构建，覆盖了现代LLM训练的所有三个阶段：

预训练阶段(Pre-training)

包含四个核心数据源：

DCLM-Baseline: 大规模网络文本语料
peS2o: 学术论文数据集
OpenWebMath: 数学内容专用语料
StarCoder: 代码数据集(Assembly和Java子集)

中训练阶段(Mid-training)

GSM8K: 数学推理数据集
StackExchange: 问答社区数据

后训练阶段(Post-training)

SFT(Supervised Fine-Tuning): 监督微调数据(Aya和WildChat混合)
DPO(Direct Preference Optimization): 偏好优化数据
RLVR(Reinforcement Learning with Verifiable Rewards): 可验证奖励强化学习数据(GSM、MATH、IFEval)

章节 05

数据对齐策略

基准提供两种数据分割方式：

Matched(对齐版): 污染数据与未污染数据在三个维度上显式对齐——文本质量、时间范围和词汇相似度。这种设计确保了检测方法评估的公平性，排除了数据分布差异带来的干扰。

Shifted(偏移版): 污染数据采样时未与未污染数据进行分布对齐，用于测试检测方法在分布偏移场景下的鲁棒性。

章节 06

核心检测方法

OLMo-Detect实现了12种污染检测方法，涵盖多个技术路线：

章节 07

基于似然的方法

Perplexity(困惑度): 低困惑度暗示模型对文本熟悉
Zlib压缩比: 结合困惑度与文本压缩特性
Lowercase困惑度: 通过大小写转换检测记忆
Min-K% / Min-K%++: 基于最低k% token似然的检测

章节 08

基于检索的方法

Recall: 基于n-gram召回率
Neighborhood Attack: 邻域扰动检测