正文

RDT：无需训练的多模态智能体安全对齐方法

RDT通过将LLM的安全拒绝方向移植到视觉-语言-动作模型，在无需重新训练的情况下实现安全对齐，为机器人智能体的安全控制提供了新思路。

安全对齐视觉-语言-动作模型RLHF拒绝方向智能体安全OpenVLA推理时干预具身智能

发布时间 2026/04/22 21:30最近活动 2026/04/22 22:00预计阅读 2 分钟

章节 01

【导读】RDT：无需训练的多模态智能体安全对齐新方法

本文介绍了一种名为拒绝方向移植（RDT）的多模态智能体安全对齐方法。该方法通过将已安全对齐的LLM（如Llama-2-7b-chat）的拒绝方向迁移到视觉-语言-动作（VLA）模型（如OpenVLA）中，在无需重新训练的情况下实现安全对齐，解决了VLA模型动作空间的安全盲区问题，为机器人智能体的安全控制提供新思路。

章节 02

问题背景：VLA模型的结构性安全隐患

随着LLM与视觉感知、机器人控制的融合，VLA模型成为具身智能核心。但以OpenVLA为例，其基于未经RLHF对齐的Llama-2-7b-base构建，动作token被编码在与自然语言正交的子空间中。这导致安全对齐的"有害/无害"判别轴在动作token位置失效，模型会执行任何指令（包括有害的）。

章节 03

RDT核心思想：跨模型几何迁移与两种变体

RDT的核心是从安全对齐的LLM中提取拒绝方向，在推理时注入到VLA模型的动作token位置。关键洞察包括：1）预训练初始化共享几何结构（RLHF未彻底改变内部表示）；2）动作token位置存在安全盲区（线性探针AUC≈0.5）。变体：RDT（仅解码阶段注入动作token）、RDT+（额外预填充阶段注入文本token），均训练自由，代码量少且推理延迟增加不到5%。

章节 04

技术实现：拒绝方向提取与注入机制

拒绝方向提取：采用差值均值协议，收集Llama-2-chat的有害/良性提示隐藏状态，计算均值差异向量（可选SVD提取秩k子空间）。注入机制：通过PyTorch前向钩子实现，预填充阶段向文本token位置注入（系数α_text），解码阶段向动作token位置注入（系数α_act），使用位置掩码区分文本/动作token。

章节 05

实验验证：RDT的有效性与特异性

实验核心发现：1）确认安全缺口（文本token AUC>0.85，动作token AUC≈0.5）；2）跨模型迁移有效（有害动作遵从率下降超80%）；3）RDT+实现语义拒绝（动作logits集中在零运动bin）；4）方向特异性显著（真实拒绝方向优于随机向量）。

章节 06

代码结构与快速使用指南

代码结构：核心实现（rdt_intervention.py等）、基线对比（baseline_adashield.py等）、执行脚本（05_sanity_check.py等）。快速开始：运行code/scripts/05_sanity_check.py（需指定HF缓存路径、输出目录等）。硬件依赖：单张24GB+ GPU（如RTX5090），CUDA12.8+，依赖包括特定版本的PyTorch、transformers等。

章节 07

意义与未来研究方向

RDT的意义在于：1）延伸安全对齐到动作空间（对具身智能更关键）；2）训练自由特性降低部署成本。未来方向：探索其他对齐类型（有用性、诚实性）的迁移，扩展到音频、触觉等模态。

章节 08

总结：RDT的价值与启示

RDT通过跨模型几何迁移，在不重新训练的情况下为VLA模型植入安全拒绝能力。它不仅是实用的安全工具，也深化了对多模态模型内部结构的理解。随着具身智能发展，此类安全对齐方法将成为AI系统可靠性的关键技术。

RDT：无需训练的多模态智能体安全对齐方法

【导读】RDT：无需训练的多模态智能体安全对齐新方法

问题背景：VLA模型的结构性安全隐患

RDT核心思想：跨模型几何迁移与两种变体

技术实现：拒绝方向提取与注入机制

实验验证：RDT的有效性与特异性

代码结构与快速使用指南

意义与未来研究方向

总结：RDT的价值与启示

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

从零开始搭建AWS生成式AI应用：EC2+Bedrock实战教程