章节 01
【导读】单次GRPO训练即可破坏大模型对齐:安全漏洞研究揭示后训练脆弱性
原作者与来源:
- 原作者/维护者:arXiv authors
- 来源平台:arxiv
- 原始标题:It Takes One to Bias Them All: Breaking Bad with One-Shot GRPO
- 原始链接:http://arxiv.org/abs/2606.10931v1
- 来源发布时间/更新时间:2026-06-09T14:44:01Z
核心观点:最新研究表明,仅需在单个带有偏见的数据样本上进行一次GRPO训练,就足以覆盖大语言模型的安全对齐机制,导致系统性偏见产生并在多个维度上泛化,揭示了当前后训练对齐范式的根本性脆弱性。