章节 01
【导读】AEGIS基准测试:AI生成学术图像取证的全新评估体系
生成式AI技术的飞速发展引发学术图像诚信危机,研究人员推出AEGIS基准测试,通过领域特定复杂性、多样化伪造模拟和多维取证评估三大创新,系统评估25个多模态大语言模型(MLLMs)和9个专家模型的学术图像取证能力,揭示当前取证技术明显滞后于生成式AI发展的现状。
正文
AEGIS基准测试通过领域特定复杂性、多样化伪造模拟和多维取证评估三大创新,系统评估了25个多模态大语言模型和9个专家模型在学术图像取证方面的能力,揭示了当前取证技术相对于生成式AI发展的明显滞后。
章节 01
生成式AI技术的飞速发展引发学术图像诚信危机,研究人员推出AEGIS基准测试,通过领域特定复杂性、多样化伪造模拟和多维取证评估三大创新,系统评估25个多模态大语言模型(MLLMs)和9个专家模型的学术图像取证能力,揭示当前取证技术明显滞后于生成式AI发展的现状。
章节 02
学术图像造假因生成式AI呈指数级恶化,传统检测工具难以识别高仿真AI生成图像;现有取证基准存在覆盖图像类型单一、未模拟真实学术场景多样化伪造策略的局限,导致模型实际表现不佳。
章节 03
涵盖7个主要学术领域39个子类别,反映不同学科图像特征与造假模式,顶级模型GPT-5.1整体表现仅48.80%,专业模型定位准确率30.09%。
模拟直接生成虚假图像、局部篡改真实图像等4种主流伪造策略,25个生成模型测试中11个的伪造图像平均取证准确率低于50%,形成“取证鸿沟”。
引入检测能力、推理过程、定位精度的多维框架,MLLMs文本伪影识别准确率达84.74%,专业检测器二分类峰值准确率79.54%。
章节 04
章节 05
章节 06
AEGIS标志学术图像取证研究进入新阶段,不仅是评估工具,更映照AI安全技术与理想目标的差距;未来将持续更新,为学术界对抗AI造假提供前沿防线。