章节 01
【导读】Steering to Safety:推理时安全对齐的新方法
本项目探索无需重新训练的大语言模型推理时安全对齐方法,结合监督式线性探针与非监督式门控稀疏自编码器(GSAE),在冻结RoBERTa骨干网络上发现并操控安全相关的可解释隐层原子。核心优势在于部署后可动态调整安全策略,无需昂贵的重新训练,为LLM安全提供新路径。
正文
该项目探索了无需重新训练的大语言模型推理时安全对齐方法,结合监督式线性探针与非监督式门控稀疏自编码器,在冻结的RoBERTa骨干网络上发现并操控安全相关的可解释隐层原子。
章节 01
本项目探索无需重新训练的大语言模型推理时安全对齐方法,结合监督式线性探针与非监督式门控稀疏自编码器(GSAE),在冻结RoBERTa骨干网络上发现并操控安全相关的可解释隐层原子。核心优势在于部署后可动态调整安全策略,无需昂贵的重新训练,为LLM安全提供新路径。
章节 02
大语言模型的安全性问题(如生成有害内容、被"越狱")阻碍其关键场景应用。传统方法依赖监督微调(SFT)和强化学习(RLHF),但需大量资源且模型行为固定。本项目提出推理时安全对齐:不重新训练,通过操控内部激活实时引导模型行为,为部署后安全更新和个性化策略提供可能。
章节 03
项目采用两种互补技术:
章节 04
使用7个数据集覆盖多维度:
| 数据集 | 规模 | 用途 |
|---|---|---|
| BeaverTails | 30万+问答对 | 有害性探针训练 |
| CivilComments | 180万条评论 | 毒性探针训练 |
| GoEmotions | 5.8万Reddit评论 | 情感原子发现 |
| EmpatheticDialogues | 2.5万对话 | 共情操控协同效应 |
| CrowS-Pairs | 1508对 | 分布外偏见评估 |
| StereoSet | 2106样本 | 刻板印象评估 |
| Wikipedia | 200万文章 | GSAE预训练语料 |
| 数据加载采用"下载一次缓存"策略,自定义处理EmpatheticDialogues的tarfile。 |
章节 05
章节 06
评估维度:流畅性(伪对数似然PLL)、有效性(ΔP)、安全性(越狱合规率)、泛化性(分布外偏见)。 工程优化:内存映射分片验证、流式统计、Float16压缩、工业级检查点、本地计算延迟传输I/O策略。
章节 07
意义:证明推理时安全对齐可行性,具灵活性(动态调整)、可解释性(SAE原子)、组合性、成本效益。 挑战:未过滤原子风险、策略权衡、泛化性待提升。 未来方向:扩展到GPT级模型、自动化原子筛选、多语言场景、探索操控向量与架构关系。