章节 01
Seirênes框架:通过对抗自博弈增强LLM推理鲁棒性
研究者提出Seirênes框架,核心是参数共享的对抗自博弈机制——让模型同时学习生成干扰上下文和从中提取核心逻辑,将上下文干扰从失败模式转化为训练信号。该框架在7个数学推理基准上实现7-10个百分点的平均提升,显著增强模型推理鲁棒性。
正文
研究者提出Seirênes框架,通过参数共享的对抗自博弈机制让模型同时学习生成干扰上下文和从中提取核心逻辑,将上下文干扰从失败模式转化为训练信号,在7个数学推理基准上实现7-10个百分点的平均提升。
章节 01
研究者提出Seirênes框架,核心是参数共享的对抗自博弈机制——让模型同时学习生成干扰上下文和从中提取核心逻辑,将上下文干扰从失败模式转化为训练信号。该框架在7个数学推理基准上实现7-10个百分点的平均提升,显著增强模型推理鲁棒性。
章节 02
近年来,基于可验证奖励的强化学习提升了LLM推理能力,但模型在真实场景中面临冗余信息、无关指令等干扰时表现脆弱。传统解决思路是增加干扰样本,但存在真实干扰多样性难穷举、静态数据增强跟不上模型进化的问题。
章节 03
Seirênes的核心思想是将干扰转化为训练信号。其技术架构采用参数共享对抗自博弈:同一模型扮演干扰构造者(生成合理、相关、误导性的干扰上下文)和求解者(排除干扰、恢复正确推理逻辑),通过协同进化的对抗循环自动生成难度递增的训练课程,迫使模型超越表面模式匹配,建立深层逻辑推理能力。
章节 04
在7个数学推理基准测试中,不同规模模型均获提升:4B模型平均+10.2%,7B+9.1%,30B+7.2%。此外,4B Seirênes生成的干扰能降低GPT和Gemini准确率约4-5%,说明其干扰构造能力具有跨模型泛化性,可诊断普遍推理盲点。
章节 05
Seirênes构造的干扰包括信息过载、统计相关性陷阱、语义误导、指令污染四类。与传统方法相比,Seirênes具有动态生成干扰(随模型进化)、对抗性设计(针对当前弱点)、端到端整合(干扰生成与训练统一)的优势。
章节 06
Seirênes存在计算开销大、干扰多样性受模型创造力限制、领域局限(当前集中数学推理)等问题。未来方向包括探索高效对抗算法、扩展到更多推理领域、研究干扰构造可解释性、开发评估工具、尝试多模型对抗等。
章节 07
Seirênes为AI安全提供三点启示:1. 可作为红队测试工具自动发现模型弱点;2. 将对抗样本生成整合到训练循环是提升鲁棒性的有效策略;3. 自我博弈机制展示了模型自我改进的潜力。