章节 01
多模态大模型安全性研究导读:Qwen2-VL与LLaVA的MM-SafetyBench评估
本研究针对多模态大语言模型(MLLMs)的安全性展开系统评估,使用ECCV 2024发表的MM-SafetyBench基准,分析阿里云Qwen2-VL和加州大学伯克利分校LLaVA两个开源模型在有害查询下的响应模式,重点探究指令微调对模型安全性的影响。
正文
一项针对多模态大语言模型安全性的系统评估研究,使用 ECCV 2024 发表的 MM-SafetyBench 基准,分析 Qwen2-VL 和 LLaVA 在面对有害查询时的响应模式,以及指令微调对安全性的影响。
章节 01
本研究针对多模态大语言模型(MLLMs)的安全性展开系统评估,使用ECCV 2024发表的MM-SafetyBench基准,分析阿里云Qwen2-VL和加州大学伯克利分校LLaVA两个开源模型在有害查询下的响应模式,重点探究指令微调对模型安全性的影响。
章节 02
随着GPT-4V、Claude3等MLLMs的广泛应用,其安全性问题日益突出。现有研究多聚焦纯文本LLM安全对齐,但MLLM的安全边界缺乏系统性理解。MM-SafetyBench(ECCV2024接收)是首个多模态安全综合评估基准,含13个风险场景、5040个图文对,发现MLLM易被恶意图像误导。本研究基于此,对Qwen2-VL和LLaVA开展深入评估,关注指令微调的安全影响。
章节 03
双维度评估:准确性维度用TextVQA数据集(图像文字理解任务);安全性维度用MM-SafetyBench(13个风险场景:非法活动、仇恨言论、恶意软件生成、人身伤害、经济损害、欺诈、色情内容、政治游说、隐私侵犯、法律意见、金融建议、健康咨询、政府决策)。
评估方法演进:早期采用关键词匹配(如"抱歉""不能"等拒绝标志词)快速判断响应安全,但易误判;最终使用Meta的LlamaGuard-3-8B作为安全评判器(上下文感知更准确)。
实验设计:对比基线模型(Qwen2-VL-2B-Instruct、LLaVA-1.5-7b-hf预训练版)与QLoRA微调模型(用LLaVA-Instruct-150K数据集,A100 40GB GPU训练)。
章节 04
章节 05
运行环境:加拿大数字研究联盟(DRAC)的Narval HPC集群,使用A100 40GB GPU。
工作流程:登录节点仅用于下载模型和数据集;计算节点通过Slurm调度系统提交训练和评估作业(分离设计避免运行时错误)。
数据集结构:MM-SafetyBench图文对分三类:Kind1(StableDiffusion生成图像+重述问题)、Kind2(带拼写错误的SD图像+标准重述问题)、Kind3(带拼写错误的图像+标准重述问题),测试模型对图像质量和文本扰动的鲁棒性。
章节 06
本项目已被多项后续研究引用,包括VHELM(2024)及SPA-VL、Jailbreak_GPT4o、BAP、Visual-RolePlay、JailBreakV-28K、AdaShield、ECSO、LVLM-LP、MLLM-Protector等研究,共同构成多模态AI安全研究的基础生态。
章节 07
工程团队:1. 微调需谨慎(可能降低特定场景安全性);2. 任务分类治理(程序类、工具类查询实施额外安全过滤层);3. 持续监控(建立基于LlamaGuard的自动化安全审计流程);4. 红队测试(定期用MM-SafetyBench进行对抗性测试)。
研究人员:提供系统性评估MLLM安全性的方法论参考。