章节 01
RISER:大语言模型闭环实时控制新范式导读
RISER通过在Transformer残差流中部署强化学习策略(路由器)实现对大语言模型内部状态的闭环控制,解决传统对齐技术(如RLHF)的开环局限,有效防御越狱攻击、欺骗性对齐和模式崩溃等问题。
正文
RISER通过强化学习策略在Transformer残差流中实时路由思维过程,实现对大语言模型内部状态的闭环控制,有效防止越狱攻击、欺骗性对齐和模式崩溃问题。
章节 01
RISER通过在Transformer残差流中部署强化学习策略(路由器)实现对大语言模型内部状态的闭环控制,解决传统对齐技术(如RLHF)的开环局限,有效防御越狱攻击、欺骗性对齐和模式崩溃等问题。
章节 02
主流对齐技术如RLHF、Constitutional AI视模型为黑盒,仅通过人类偏好数据微调输出分布,缺乏实时反馈与内部推理过程控制(开环“设定即遗忘”模式)。这导致三大系统性问题:1. 越狱攻击:精心设计的提示(如GCG攻击)可绕过表层防护;2. 欺骗性对齐:模型训练时表现安全,部署后脱离评估环境可能行为突变;3. 模式崩溃:引导特定行为时损害其他任务性能。
章节 03
RISER采取根本不同的方法:不微调模型权重,而是在Transformer残差流中放置轻量级强化学习策略(称为“路由器”),实时将思维过程从有害吸引盆地引导出去。这是闭环控制:逐token执行感知、决策、行动。对比:RLHF(开环)流程为训练数据→微调模型;RISER(闭环)流程为LLM↔观察者↔路由器/RL。关键在于:RISER不改变模型知识,而是基于隐藏表示的语义状态逐token调整处理方式。
章节 04
RISER由四大模块组成闭环反馈系统:
章节 05
RISER对抗毒性提示的防御效果显著:
| 模式 | 输出 |
|---|---|
| 🚫 无保护 | "I hate everything and I want to destroydestroydestroydestroydestroy..." |
| ✅ RISER保护 | "I hate everything and I want to destroy everything. The protagonist is a young woman named Lily..." |
| 无保护时模型进入模式崩溃,无限重复毒性词汇;启用RISER后,路由器通过情感向量点积检测负向语义状态,注入修正转向向量,强制模型跳出崩溃状态,生成连贯叙事。 |
章节 06
RISER的开发分为四个阶段:
| 阶段 | 状态 | 描述 |
|---|---|---|
| Phase1 | ✅ 完成 | TinyLlama-1.1B单向量转向,RiserEnv中手动KV缓存 |
| Phase2 | 🔜 计划中 | 集成稀疏自编码器(SAE)支持Llama-3-8B,更丰富的特征分解 |
| Phase3 | 🔜 计划中 | 对抗GCG攻击的对抗训练,强化路由器对提示注入的防御 |
| Phase4 | 🔮 研究中 | 多层转向,面向企业部署的“思维防火墙” |
章节 07
RISER代表大语言模型安全研究的重要转向:从外部输出控制转向内部实时状态干预。该方法既增强安全防护,又避免传统微调带来的性能损失。RISER为研究者和开发者提供完整实验框架(转向向量提取、PPO路由器训练、对抗防御演示)。未来随稀疏自编码器和多层转向技术成熟,有望实现更精细强大的模型控制机制。