章节 01
Luminol-AIDetect:基于文本扰动的零样本AI生成文本检测(导读)
Luminol-AIDetect通过随机文本打乱暴露大模型的结构脆弱性,利用困惑度变化差异实现跨模型、跨语言的零样本AI生成文本检测,相比现有方法假阳性率(FPR)降低达17倍。该方法无需针对特定模型训练,为内容审核、学术诚信等领域提供新范式。
正文
Luminol-AIDetect通过简单的随机文本打乱暴露大模型的结构脆弱性,利用困惑度变化差异实现跨模型、跨语言的零样本检测,FPR降低达17倍。
章节 01
Luminol-AIDetect通过随机文本打乱暴露大模型的结构脆弱性,利用困惑度变化差异实现跨模型、跨语言的零样本AI生成文本检测,相比现有方法假阳性率(FPR)降低达17倍。该方法无需针对特定模型训练,为内容审核、学术诚信等领域提供新范式。
章节 02
随着GPT-44、Claude等大语言模型普及,AI生成文本渗透各领域,可靠区分人类与AI内容成为紧迫需求。现有检测方法面临三大挑战:模型特异性陷阱(针对特定模型训练,面对新模型性能急剧下降)、对抗鲁棒性不足(易被改写、同义词替换等手段绕过)、零样本需求(理想检测器应无需重新训练即可开箱即用)。
章节 03
LLuminol-AIDetect的核心观察是:大大语言模型自回归特性导致结构脆弱性——相比人类写作,AI生成文本对文本结构扰动更敏感。人类写作有深层语义连贯性,打乱句子顺序仍能感知逻辑;而AI生成无全局规划,局部流畅但全局结构松散,打乱后困惑度显著上升。
章节 04
将文本分割为句子/段落,随机重排单元顺序,保留单元内部不变,破坏全局结构。
计算原始与打乱后文本的困惑度,提取特征:基础特征(原始困惑度、打乱后困惑度、变化率ΔP);高级特征(多次打乱分布统计、不同粒度差异、困惑度恢复曲线)。
用核密度估计(KDE)或高斯混合模型学习特征空间分布;通过多个轻量级分类器集成投票产生最终预测,输出概率分数支持可调阈值。
章节 05
章节 06
章节 07
章节 08
Luminol-AIDetect可应用于: