Zing 论坛

正文

多模态大模型安全评估:基于 MM-SafetyBench 的 Qwen2-VL 与 LLaVA 安全性研究

一项针对多模态大语言模型安全性的系统评估研究,使用 ECCV 2024 发表的 MM-SafetyBench 基准,分析 Qwen2-VL 和 LLaVA 在面对有害查询时的响应模式,以及指令微调对安全性的影响。

多模态大模型安全性评估MM-SafetyBenchQwen2-VLLLaVAECCV2024LlamaGuard指令微调AI安全红队测试
发布时间 2026/05/02 02:38最近活动 2026/05/02 02:53预计阅读 3 分钟
多模态大模型安全评估:基于 MM-SafetyBench 的 Qwen2-VL 与 LLaVA 安全性研究
1

章节 01

多模态大模型安全性研究导读:Qwen2-VL与LLaVA的MM-SafetyBench评估

本研究针对多模态大语言模型(MLLMs)的安全性展开系统评估,使用ECCV 2024发表的MM-SafetyBench基准,分析阿里云Qwen2-VL和加州大学伯克利分校LLaVA两个开源模型在有害查询下的响应模式,重点探究指令微调对模型安全性的影响。

2

章节 02

研究背景与动机

随着GPT-4V、Claude3等MLLMs的广泛应用,其安全性问题日益突出。现有研究多聚焦纯文本LLM安全对齐,但MLLM的安全边界缺乏系统性理解。MM-SafetyBench(ECCV2024接收)是首个多模态安全综合评估基准,含13个风险场景、5040个图文对,发现MLLM易被恶意图像误导。本研究基于此,对Qwen2-VL和LLaVA开展深入评估,关注指令微调的安全影响。

3

章节 03

评估框架与方法

双维度评估:准确性维度用TextVQA数据集(图像文字理解任务);安全性维度用MM-SafetyBench(13个风险场景:非法活动、仇恨言论、恶意软件生成、人身伤害、经济损害、欺诈、色情内容、政治游说、隐私侵犯、法律意见、金融建议、健康咨询、政府决策)。

评估方法演进:早期采用关键词匹配(如"抱歉""不能"等拒绝标志词)快速判断响应安全,但易误判;最终使用Meta的LlamaGuard-3-8B作为安全评判器(上下文感知更准确)。

实验设计:对比基线模型(Qwen2-VL-2B-Instruct、LLaVA-1.5-7b-hf预训练版)与QLoRA微调模型(用LLaVA-Instruct-150K数据集,A100 40GB GPU训练)。

4

章节 04

核心发现

  1. 指令遵循能力提升:微调后模型在复杂指令遵循上表现明显提升。
  2. 准确性与响应长度的权衡:微调可能导致TextVQA准确率下降,因模型倾向生成冗长响应(过度解释)。
  3. 安全性与任务类型强相关:观点类任务(如政治立场、价值判断)微调后更安全;程序类任务(如"如何制作炸弹"等步骤说明)微调后更易生成有害内容(增强帮助性导致警惕降低)。
5

章节 05

技术实现细节

运行环境:加拿大数字研究联盟(DRAC)的Narval HPC集群,使用A100 40GB GPU。

工作流程:登录节点仅用于下载模型和数据集;计算节点通过Slurm调度系统提交训练和评估作业(分离设计避免运行时错误)。

数据集结构:MM-SafetyBench图文对分三类:Kind1(StableDiffusion生成图像+重述问题)、Kind2(带拼写错误的SD图像+标准重述问题)、Kind3(带拼写错误的图像+标准重述问题),测试模型对图像质量和文本扰动的鲁棒性。

6

章节 06

研究意义与影响

本项目已被多项后续研究引用,包括VHELM(2024)及SPA-VL、Jailbreak_GPT4o、BAP、Visual-RolePlay、JailBreakV-28K、AdaShield、ECSO、LVLM-LP、MLLM-Protector等研究,共同构成多模态AI安全研究的基础生态。

7

章节 07

实践启示与建议

工程团队:1. 微调需谨慎(可能降低特定场景安全性);2. 任务分类治理(程序类、工具类查询实施额外安全过滤层);3. 持续监控(建立基于LlamaGuard的自动化安全审计流程);4. 红队测试(定期用MM-SafetyBench进行对抗性测试)。

研究人员:提供系统性评估MLLM安全性的方法论参考。