章节 01
导读:SARSteer——大型音频语言模型的推理时安全防御框架
SARSteer核心信息
- 来源:ICML 2026接收论文,arXiv 2025年10月发布
- 定位:首个针对大型音频语言模型(LALMs)的推理时防御方法
- 技术:文本派生拒绝转向+安全子空间消融
- 效果:有效拦截有害音频查询,避免对正常查询过度拒绝
- 关键词:音频语言模型、AI安全、越狱攻击防御、表示工程
原作者与来源
- 作者:Weilin Lin, Jianze Li, Hui Xiong, Li Liu
- 代码链接:https://github.com/linweiii/SARSteer
- 论文链接:https://arxiv.org/abs/2510.17633