正文

多模态大模型安全评估：基于 MM-SafetyBench 的 Qwen2-VL 与 LLaVA 安全性研究

一项针对多模态大语言模型安全性的系统评估研究，使用 ECCV 2024 发表的 MM-SafetyBench 基准，分析 Qwen2-VL 和 LLaVA 在面对有害查询时的响应模式，以及指令微调对安全性的影响。

多模态大模型安全性评估MM-SafetyBenchQwen2-VLLLaVAECCV2024LlamaGuard指令微调AI安全红队测试

发布时间 2026/05/02 02:38最近活动 2026/05/02 02:53预计阅读 3 分钟

多模态大模型安全评估：基于 MM-SafetyBench 的 Qwen2-VL 与 LLaVA 安全性研究

章节 01

多模态大模型安全性研究导读：Qwen2-VL与LLaVA的MM-SafetyBench评估

本研究针对多模态大语言模型（MLLMs）的安全性展开系统评估，使用ECCV 2024发表的MM-SafetyBench基准，分析阿里云Qwen2-VL和加州大学伯克利分校LLaVA两个开源模型在有害查询下的响应模式，重点探究指令微调对模型安全性的影响。

章节 02

研究背景与动机

随着GPT-4V、Claude3等MLLMs的广泛应用，其安全性问题日益突出。现有研究多聚焦纯文本LLM安全对齐，但MLLM的安全边界缺乏系统性理解。MM-SafetyBench（ECCV2024接收）是首个多模态安全综合评估基准，含13个风险场景、5040个图文对，发现MLLM易被恶意图像误导。本研究基于此，对Qwen2-VL和LLaVA开展深入评估，关注指令微调的安全影响。

章节 03

评估框架与方法

双维度评估：准确性维度用TextVQA数据集（图像文字理解任务）；安全性维度用MM-SafetyBench（13个风险场景：非法活动、仇恨言论、恶意软件生成、人身伤害、经济损害、欺诈、色情内容、政治游说、隐私侵犯、法律意见、金融建议、健康咨询、政府决策）。

评估方法演进：早期采用关键词匹配（如"抱歉""不能"等拒绝标志词）快速判断响应安全，但易误判；最终使用Meta的LlamaGuard-3-8B作为安全评判器（上下文感知更准确）。

实验设计：对比基线模型（Qwen2-VL-2B-Instruct、LLaVA-1.5-7b-hf预训练版）与QLoRA微调模型（用LLaVA-Instruct-150K数据集，A100 40GB GPU训练）。

章节 04

核心发现

指令遵循能力提升：微调后模型在复杂指令遵循上表现明显提升。
准确性与响应长度的权衡：微调可能导致TextVQA准确率下降，因模型倾向生成冗长响应（过度解释）。
安全性与任务类型强相关：观点类任务（如政治立场、价值判断）微调后更安全；程序类任务（如"如何制作炸弹"等步骤说明）微调后更易生成有害内容（增强帮助性导致警惕降低）。

章节 05

技术实现细节

运行环境：加拿大数字研究联盟（DRAC）的Narval HPC集群，使用A100 40GB GPU。

工作流程：登录节点仅用于下载模型和数据集；计算节点通过Slurm调度系统提交训练和评估作业（分离设计避免运行时错误）。

数据集结构：MM-SafetyBench图文对分三类：Kind1（StableDiffusion生成图像+重述问题）、Kind2（带拼写错误的SD图像+标准重述问题）、Kind3（带拼写错误的图像+标准重述问题），测试模型对图像质量和文本扰动的鲁棒性。

章节 06

研究意义与影响

本项目已被多项后续研究引用，包括VHELM（2024）及SPA-VL、Jailbreak_GPT4o、BAP、Visual-RolePlay、JailBreakV-28K、AdaShield、ECSO、LVLM-LP、MLLM-Protector等研究，共同构成多模态AI安全研究的基础生态。

章节 07

实践启示与建议

工程团队：1. 微调需谨慎（可能降低特定场景安全性）；2. 任务分类治理（程序类、工具类查询实施额外安全过滤层）；3. 持续监控（建立基于LlamaGuard的自动化安全审计流程）；4. 红队测试（定期用MM-SafetyBench进行对抗性测试）。

研究人员：提供系统性评估MLLM安全性的方法论参考。

多模态大模型安全评估：基于 MM-SafetyBench 的 Qwen2-VL 与 LLaVA 安全性研究

多模态大模型安全性研究导读：Qwen2-VL与LLaVA的MM-SafetyBench评估

研究背景与动机

评估框架与方法

核心发现

技术实现细节

研究意义与影响

实践启示与建议

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

从零构建现代LLM：一个教学级的Llama风格语言模型实现