Zing 论坛

正文

OLMo-Detect:多阶段大语言模型数据污染检测基准

首个覆盖预训练、中训练和后训练三阶段的LLM逐字记忆检测基准,包含9个领域、多尺寸模型评估和12种检测方法对比。

LLM数据污染数据泄露基准测试OLMo记忆检测RAG模型评估AI安全
发布时间 2026/06/11 19:07最近活动 2026/06/11 19:19预计阅读 3 分钟
OLMo-Detect:多阶段大语言模型数据污染检测基准
1

章节 01

导读 / 主楼:OLMo-Detect:多阶段大语言模型数据污染检测基准

首个覆盖预训练、中训练和后训练三阶段的LLM逐字记忆检测基准,包含9个领域、多尺寸模型评估和12种检测方法对比。

2

章节 02

原作者与来源

  • 原作者/维护者: LuckyDaydreamer
  • 来源平台: GitHub
  • 原始标题: OLMo-Detect: A Multi-Stage Benchmark for Verbatim Contamination Detection in Large Language Models
  • 原始链接: https://github.com/LuckyDaydreamer/OLMo-Detect
  • 发布时间: 2026年6月11日
  • 相关论文: EMNLP 2026投稿

3

章节 03

研究背景与问题定义

大语言模型(LLM)的"数据污染"或"数据泄露"问题一直是评估领域的核心难题。当训练数据与测试数据存在重叠时,模型可能并非真正"理解"问题,而只是"背诵"了记忆中的答案。这种现象在学术基准测试、代码生成评估等场景中尤为严重。

然而,现有的污染检测研究存在几个关键局限:

  1. 阶段覆盖不全: 大多数研究仅关注预训练阶段,忽略了中训练(mid-training)和后训练(post-training)阶段的数据污染
  2. 领域单一: 缺乏跨领域的系统性评估
  3. 评估标准不一: 不同研究使用不同的污染定义和检测阈值,结果难以比较

OLMo-Detect正是为解决这些问题而设计的全面基准测试套件。


4

章节 04

三阶段全覆盖

OLMo-Detect基于OLMo 2训练流程构建,覆盖了现代LLM训练的所有三个阶段:

预训练阶段(Pre-training)

包含四个核心数据源:

  • DCLM-Baseline: 大规模网络文本语料
  • peS2o: 学术论文数据集
  • OpenWebMath: 数学内容专用语料
  • StarCoder: 代码数据集(Assembly和Java子集)

中训练阶段(Mid-training)

  • GSM8K: 数学推理数据集
  • StackExchange: 问答社区数据

后训练阶段(Post-training)

  • SFT(Supervised Fine-Tuning): 监督微调数据(Aya和WildChat混合)
  • DPO(Direct Preference Optimization): 偏好优化数据
  • RLVR(Reinforcement Learning with Verifiable Rewards): 可验证奖励强化学习数据(GSM、MATH、IFEval)
5

章节 05

数据对齐策略

基准提供两种数据分割方式:

Matched(对齐版): 污染数据与未污染数据在三个维度上显式对齐——文本质量、时间范围和词汇相似度。这种设计确保了检测方法评估的公平性,排除了数据分布差异带来的干扰。

Shifted(偏移版): 污染数据采样时未与未污染数据进行分布对齐,用于测试检测方法在分布偏移场景下的鲁棒性。


6

章节 06

核心检测方法

OLMo-Detect实现了12种污染检测方法,涵盖多个技术路线:

7

章节 07

基于似然的方法

  • Perplexity(困惑度): 低困惑度暗示模型对文本熟悉
  • Zlib压缩比: 结合困惑度与文本压缩特性
  • Lowercase困惑度: 通过大小写转换检测记忆
  • Min-K% / Min-K%++: 基于最低k% token似然的检测
8

章节 08

基于检索的方法

  • Recall: 基于n-gram召回率
  • Neighborhood Attack: 邻域扰动检测