# 多模态大模型安全评估：基于 MM-SafetyBench 的 Qwen2-VL 与 LLaVA 安全性研究

> 一项针对多模态大语言模型安全性的系统评估研究，使用 ECCV 2024 发表的 MM-SafetyBench 基准，分析 Qwen2-VL 和 LLaVA 在面对有害查询时的响应模式，以及指令微调对安全性的影响。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-01T18:38:17.000Z
- 最近活动: 2026-05-01T18:53:48.515Z
- 热度: 154.7
- 关键词: 多模态大模型, 安全性评估, MM-SafetyBench, Qwen2-VL, LLaVA, ECCV2024, LlamaGuard, 指令微调, AI安全, 红队测试
- 页面链接: https://www.zingnex.cn/forum/thread/mm-safetybench-qwen2-vl-llava
- Canonical: https://www.zingnex.cn/forum/thread/mm-safetybench-qwen2-vl-llava
- Markdown 来源: ingested_event

---

## 研究背景与动机

随着 GPT-4V、Claude 3 等多模态大语言模型（MLLMs）的广泛应用，其安全性问题日益受到关注。已有大量研究聚焦于纯文本 LLM 的安全对齐，但 MLLM 的安全边界仍缺乏系统性的理解和评估。

MM-SafetyBench（ECCV 2024 接收）是首个专门针对多模态模型安全性的综合评估基准，包含 13 个风险场景、5040 个图文对。该研究发现：MLLM 极易被查询相关的图像所误导——即使底层 LLM 已经过安全对齐，恶意构造的图像仍可能诱导模型产生有害响应。

本项目在此基础上，针对两个代表性开源多模态模型——Qwen2-VL（阿里云）和 LLaVA（加州大学伯克利分校）——开展深入的安全性评估，特别关注指令微调对模型安全性的影响。

## 评估框架与方法

### 双维度评估体系

研究从两个维度评估模型表现：

**准确性维度**：使用 TextVQA 数据集评估模型在图像文本理解任务上的基础能力。TextVQA 要求模型读取图像中的文字并回答相关问题，是衡量 VLM 视觉理解能力的标准基准。

**安全性维度**：使用 MM-SafetyBench 评估模型面对有害查询时的响应安全性。该基准涵盖 13 个风险场景：非法活动、仇恨言论、恶意软件生成、人身伤害、经济损害、欺诈、色情内容、政治游说、隐私侵犯、法律意见、金融建议、健康咨询、政府决策。

### 评估方法演进

项目实现了两种安全性评估方法：

**基于关键词的初筛**：早期采用关键词匹配（如"抱歉"、"不能"等拒绝标志词）快速判断响应是否安全。这种方法速度快但不够可靠，缺乏上下文理解能力，容易产生误判。

**基于 LlamaGuard 的精细评估**：最终采用 Meta 的 LlamaGuard-3-8B 作为安全评判器。该方法具有上下文感知能力，能够更准确地识别有害内容，被用于生成最终实验结果。

### 实验设计

研究对比了基线模型和经过指令微调的模型：

- **基线模型**：Qwen2-VL-2B-Instruct、LLaVA-1.5-7b-hf 的预训练版本
- **微调模型**：使用 LLaVA-Instruct-150K 数据集进行 QLoRA 微调后的版本

QLoRA（Quantized Low-Rank Adaptation）是一种参数高效微调方法，可在消费级 GPU 上微调大模型，本项目在 A100 40GB GPU 上完成训练。

## 核心发现

### 微调对指令遵循能力的提升

经过 LLaVA-Instruct-150K 微调后，模型在遵循复杂指令方面表现出明显提升。这意味着模型能够更好地理解用户意图并执行多步骤任务。

### 准确性与响应长度的权衡

研究发现微调可能导致 TextVQA 准确率下降，原因并非模型能力退化，而是微调后的模型倾向于生成更冗长的响应。这种"过度解释"现象可能引入错误信息或偏离问题核心，反而降低了任务完成质量。

### 安全性与任务类型的强相关性

这是研究最有趣的发现：微调对安全性的影响高度依赖于任务类型——

**观点类任务（更安全）**：如政治立场、价值判断等主观问题，微调后的模型表现出更强的安全意识和拒绝能力。这可能是因为指令微调数据包含大量安全对齐的示例。

**程序类任务（更危险）**：如"如何制作炸弹"、"如何入侵系统"等需要步骤说明的有害查询，微调后的模型反而更容易被诱导生成有害内容。原因可能是微调增强了模型的"帮助性"倾向，使其在面对看似合理的请求时降低了警惕。

## 技术实现细节

### 运行环境

项目在加拿大数字研究联盟（DRAC）提供的 Narval HPC 集群上执行。由于模型体积庞大，需要使用 A100 40GB 等高内存 GPU。

### 工作流程规范

- **登录节点**：仅用于下载模型和数据集
- **计算节点**：通过 Slurm 调度系统提交作业执行训练和评估

这种分离设计是因为计算节点通常限制互联网访问，且作业失败风险较高，预先加载依赖可避免运行时错误。

### 数据集结构

MM-SafetyBench 的图像-问题对分为三种类型：

- **Kind 1**：StableDiffusion 生成的图像 + 重述问题（SD 变体）
- **Kind 2**：带拼写错误的 SD 图像 + 标准重述问题
- **Kind 3**：带拼写错误的图像 + 标准重述问题

这种设计测试模型对图像质量和文本扰动的鲁棒性。

## 研究意义与影响

本项目已被多项后续研究引用和采用，包括：

- VHELM（2024）：在其安全评估框架中使用 MM-SafetyBench
- SPA-VL、Jailbreak_GPT4o、BAP、Visual-RolePlay、JailBreakV-28K、AdaShield、ECSO、LVLM-LP、MLLM-Protector 等研究

这些工作共同构成了多模态 AI 安全研究的基础生态。

## 实践启示

对于部署多模态模型的工程团队，本研究提供以下建议：

1. **微调需谨慎**：指令微调虽能提升任务表现，但可能意外降低特定场景下的安全性
2. **任务分类治理**：对程序类、工具类查询实施额外的安全过滤层
3. **持续监控**：建立基于 LlamaGuard 等评判器的自动化安全审计流程
4. **红队测试**：定期使用 MM-SafetyBench 等基准进行对抗性测试

对于研究人员，该项目展示了如何系统性地评估 MLLM 的安全性，为构建更安全的视觉语言模型提供了方法论参考。