正文

ComicJailbreak：漫画叙事如何绕过多模态大语言模型的安全对齐机制

新加坡研究团队提出ComicJailbreak数据集，揭示通过结构化视觉叙事嵌入有害目标可绕过MLLM安全防护的新攻击向量

MLLM多模态安全越狱攻击视觉叙事AI安全对齐漫画数据集对抗攻击

发布时间 2026/03/30 13:37最近活动 2026/03/30 13:51预计阅读 3 分钟

章节 01

【导读】ComicJailbreak：漫画叙事绕过多模态大语言模型安全对齐的新发现

新加坡研究团队提出ComicJailbreak数据集，揭示通过结构化视觉叙事（如漫画）嵌入有害目标可绕过多模态大语言模型（MLLM）安全防护的新攻击向量。本帖将分楼层介绍该研究的背景、数据集设计、攻击机制、安全挑战及防御建议。

章节 02

研究背景：视觉模态安全风险被低估的问题

研究背景与问题意识

随着多模态大语言模型（MLLM）的快速发展，其安全对齐机制成为学术界和工业界关注的焦点。传统上，安全研究主要聚焦于文本层面的攻击，如提示注入、越狱攻击等。然而，视觉模态作为MLLM的核心输入之一，其潜在的安全风险却长期被低估。新加坡社会科学人工智能实验室（Social AI Studio）的研究团队提出关键问题：当有害目标被嵌入到结构化的视觉叙事中时，MLLM是否仍能坚守其安全策略？

漫画作为独特的叙事媒介，天然具备结构化、序列化特征，通过连续画面、对话框和视觉元素构建完整叙事逻辑，为攻击者提供隐蔽载体，可将有害意图拆解分散在多个视觉元素中，可能绕过传统基于文本的安全检测机制。

章节 03

ComicJailbreak数据集：设计理念与构建过程

ComicJailbreak数据集概述

ComicJailbreak项目的核心贡献是构建专门用于评估MLLM安全性的漫画越狱数据集。该数据集设计理念创新：不依赖显式有害文本提示，将潜在有害目标编码在漫画的视觉叙事结构之中，模拟真实世界复杂攻击场景——攻击者通过看似无害的图像序列诱导模型输出违反安全策略的内容。

数据集构建过程体现对实际应用场景的深入理解：通过create_dataset.py脚本生成不同类型漫画样本（如文章型），模块化设计便于学术复现及后续安全测试扩展。目前数据集已公开发布，推理和评估代码将陆续推出。

章节 04

攻击机制：利用视觉叙事的渐进性与上下文依赖

技术原理与攻击机制

ComicJailbreak攻击核心机制在于利用视觉叙事的渐进性和上下文依赖性。MLLM处理漫画输入时需整合多个画面信息理解完整故事线，攻击者可利用此特性将单个无害元素组合成特定意图的叙事结构。

具体涉及以下层面：

画面序列的语义操控：精心设计画面顺序引导模型沿特定推理路径前进，单个画面不触发警报，但序列化组合可能导向有害输出。

对话框与视觉元素的配合：漫画对话框文本简短，结合视觉语境承载丰富语义，攻击者可利用图文交织特性分散有害意图在多模态中。

叙事结构的诱导作用：漫画叙事结构引导模型预期，通过操控节奏和情节发展诱导模型生成违反安全策略的响应。

章节 05

挑战与启示：多模态安全评估的必要性

安全对齐的挑战与启示

ComicJailbreak研究发现对当前MLLM安全对齐工作提出严峻挑战：传统安全训练基于文本数据集，拒绝有害提示强化安全行为，但攻击载体转向多模态视觉叙事时，单一模态防护力不从心。

启示意义：

多模态安全评估的必要性：GPT-4V、Gemini等视觉语言模型普及，安全研究需超越文本边界，建立涵盖图像、视频等多模态综合评估框架。
结构化内容的风险：漫画、视频帧序列等结构化视觉内容具内在逻辑关联，可能被恶意利用，安全机制需理解跨元素语义关联。
现有安全训练数据的局限性：训练数据缺乏足够多模态对抗样本，模型难以识别抵御新型攻击。

章节 06

防御建议：从训练到推理的分层防护

实际应用与防御建议

对MLLM开发者和部署者的实践指导：

训练阶段：引入更多样化多模态安全数据，特别是包含复杂视觉叙事的对抗样本。
推理阶段：实施分层检测机制，不仅分析单个输入元素，还要评估元素间组合效应。
动态评估体系：静态测试集易过时，ComicJailbreak模块化数据集构建方法为持续更新测试案例提供可行路径。

章节 07

结语：多模态AI安全研究的新里程碑

结语与未来展望

ComicJailbreak代表多模态AI安全研究的重要里程碑，揭示新型攻击向量，提醒技术进步需同步强化安全防护广度与深度。视觉叙事在AI安全领域的研究价值刚被触及。

随着推理和评估代码即将发布，期待更多研究者加入，共同构建更鲁棒的多模态AI安全体系。

项目链接：https://github.com/Social-AI-Studio/ComicJailbreak

相关论文：Structured Visual Narratives Undermine Safety Alignment in Multimodal Large Language Models (arXiv:2603.21697)