正文

AEGIS基准测试：AI生成学术图像取证分析的全新评估体系

AEGIS基准测试通过领域特定复杂性、多样化伪造模拟和多维取证评估三大创新，系统评估了25个多模态大语言模型和9个专家模型在学术图像取证方面的能力，揭示了当前取证技术相对于生成式AI发展的明显滞后。

AI生成图像学术诚信图像取证多模态大语言模型基准测试生成式AI安全

发布时间 2026/05/01 01:56最近活动 2026/05/01 11:22预计阅读 2 分钟

章节 01

【导读】AEGIS基准测试：AI生成学术图像取证的全新评估体系

生成式AI技术的飞速发展引发学术图像诚信危机，研究人员推出AEGIS基准测试，通过领域特定复杂性、多样化伪造模拟和多维取证评估三大创新，系统评估25个多模态大语言模型（MLLMs）和9个专家模型的学术图像取证能力，揭示当前取证技术明显滞后于生成式AI发展的现状。

章节 02

学术图像造假因生成式AI呈指数级恶化，传统检测工具难以识别高仿真AI生成图像；现有取证基准存在覆盖图像类型单一、未模拟真实学术场景多样化伪造策略的局限，导致模型实际表现不佳。

章节 03

涵盖7个主要学术领域39个子类别，反映不同学科图像特征与造假模式，顶级模型GPT-5.1整体表现仅48.80%，专业模型定位准确率30.09%。

模拟直接生成虚假图像、局部篡改真实图像等4种主流伪造策略，25个生成模型测试中11个的伪造图像平均取证准确率低于50%，形成“取证鸿沟”。

引入检测能力、推理过程、定位精度的多维框架，MLLMs文本伪影识别准确率达84.74%，专业检测器二分类峰值准确率79.54%。

章节 04

章节 05

章节 06

AEGIS标志学术图像取证研究进入新阶段，不仅是评估工具，更映照AI安全技术与理想目标的差距；未来将持续更新，为学术界对抗AI造假提供前沿防线。