章节 01
导读:SphereVAD——无需训练的视频异常检测新范式
本文介绍SphereVAD,一种完全无需训练、零样本的视频异常检测框架。它利用预训练多模态大语言模型(MLLM)的中间层特征,通过冯·米塞斯-费舍尔(vMF)分布和超球面上的测地线推理实现异常判别,在三大基准数据集上达到训练无关方法的最先进性能。
正文
本文介绍SphereVAD,一种完全无需训练、零样本的视频异常检测框架。它利用预训练多模态大语言模型的中间层特征,通过冯·米塞斯-费舍尔分布和测地线推理在超球面上进行异常判别,在三大基准数据集上达到训练无关方法的最先进性能。
章节 01
本文介绍SphereVAD,一种完全无需训练、零样本的视频异常检测框架。它利用预训练多模态大语言模型(MLLM)的中间层特征,通过冯·米塞斯-费舍尔(vMF)分布和超球面上的测地线推理实现异常判别,在三大基准数据集上达到训练无关方法的最先进性能。
章节 02
视频异常检测(VAD)是计算机视觉领域的重要研究方向,目标是在未剪辑的监控视频中自动识别偏离正常模式的事件。传统方法面临两难困境:要么需要大规模人工标注数据进行监督训练,要么需要针对特定场景进行复杂的任务定制,这种对训练数据的依赖严重限制了新场景中的快速部署能力。实际应用中,监控系统常需在全新环境立即投入使用,无时间或资源收集数据、训练模型,因此开发即插即用、无需训练的异常检测方法是领域重要追求。
章节 03
研究人员发现预训练多模态大语言模型(MLLM)的中间层特征已编码丰富异常语义信息,虽未针对VAD优化却天然具备区分正常与异常的能力;现有方法依赖语言输出路径浪费几何可判别性,SphereVAD核心创新在于直接利用中间层特征的几何结构。
技术方案包含三个关键组件:
章节 04
SphereVAD在三大视频异常检测基准数据集评估,结果如下:
这些结果表明,通过几何推理可避免传统方法对大规模训练数据的依赖,同时保持出色检测性能。
章节 05
SphereVAD的零样本特性实用价值极高,适用于临时活动安保、突发事件响应、资源受限边缘设备等需快速部署场景,无需模型微调或数据收集。此外,该研究揭示预训练大模型内部表示可能比显式输出包含更丰富信息,有望启发其他领域研究者重新思考如何有效利用大模型潜力。
章节 06
SphereVAD通过将异常检测转化为超球面几何推理问题,实现完全无需训练的解决方案,不仅性能超越同类方法,更展示了“零样本+几何推理”的全新范式。随着多模态大语言模型持续发展,这种思路有望在更多视觉理解任务中展现威力。