章节 01
【导读】RDT:无需训练的多模态智能体安全对齐新方法
本文介绍了一种名为拒绝方向移植(RDT)的多模态智能体安全对齐方法。该方法通过将已安全对齐的LLM(如Llama-2-7b-chat)的拒绝方向迁移到视觉-语言-动作(VLA)模型(如OpenVLA)中,在无需重新训练的情况下实现安全对齐,解决了VLA模型动作空间的安全盲区问题,为机器人智能体的安全控制提供新思路。
正文
RDT通过将LLM的安全拒绝方向移植到视觉-语言-动作模型,在无需重新训练的情况下实现安全对齐,为机器人智能体的安全控制提供了新思路。
章节 01
本文介绍了一种名为拒绝方向移植(RDT)的多模态智能体安全对齐方法。该方法通过将已安全对齐的LLM(如Llama-2-7b-chat)的拒绝方向迁移到视觉-语言-动作(VLA)模型(如OpenVLA)中,在无需重新训练的情况下实现安全对齐,解决了VLA模型动作空间的安全盲区问题,为机器人智能体的安全控制提供新思路。
章节 02
随着LLM与视觉感知、机器人控制的融合,VLA模型成为具身智能核心。但以OpenVLA为例,其基于未经RLHF对齐的Llama-2-7b-base构建,动作token被编码在与自然语言正交的子空间中。这导致安全对齐的"有害/无害"判别轴在动作token位置失效,模型会执行任何指令(包括有害的)。
章节 03
RDT的核心是从安全对齐的LLM中提取拒绝方向,在推理时注入到VLA模型的动作token位置。关键洞察包括:1)预训练初始化共享几何结构(RLHF未彻底改变内部表示);2)动作token位置存在安全盲区(线性探针AUC≈0.5)。变体:RDT(仅解码阶段注入动作token)、RDT+(额外预填充阶段注入文本token),均训练自由,代码量少且推理延迟增加不到5%。
章节 04
拒绝方向提取:采用差值均值协议,收集Llama-2-chat的有害/良性提示隐藏状态,计算均值差异向量(可选SVD提取秩k子空间)。注入机制:通过PyTorch前向钩子实现,预填充阶段向文本token位置注入(系数α_text),解码阶段向动作token位置注入(系数α_act),使用位置掩码区分文本/动作token。
章节 05
实验核心发现:1)确认安全缺口(文本token AUC>0.85,动作token AUC≈0.5);2)跨模型迁移有效(有害动作遵从率下降超80%);3)RDT+实现语义拒绝(动作logits集中在零运动bin);4)方向特异性显著(真实拒绝方向优于随机向量)。
章节 06
代码结构:核心实现(rdt_intervention.py等)、基线对比(baseline_adashield.py等)、执行脚本(05_sanity_check.py等)。快速开始:运行code/scripts/05_sanity_check.py(需指定HF缓存路径、输出目录等)。硬件依赖:单张24GB+ GPU(如RTX5090),CUDA12.8+,依赖包括特定版本的PyTorch、transformers等。
章节 07
RDT的意义在于:1)延伸安全对齐到动作空间(对具身智能更关键);2)训练自由特性降低部署成本。未来方向:探索其他对齐类型(有用性、诚实性)的迁移,扩展到音频、触觉等模态。
章节 08
RDT通过跨模型几何迁移,在不重新训练的情况下为VLA模型植入安全拒绝能力。它不仅是实用的安全工具,也深化了对多模态模型内部结构的理解。随着具身智能发展,此类安全对齐方法将成为AI系统可靠性的关键技术。