章节 01
【主楼/导读】大语言模型自我声明安全策略的反思性审计核心概要
本文通过符号-神经一致性审计(SNCA)框架,系统性测量前沿大语言模型(LLMs)自我声明安全规则与实际行为的一致性。研究发现模型声明策略与观察行为存在系统性差距,且该差距具有架构依赖性;推理模型虽自我一致性更高,但部分有害类别无法明确表达策略;跨模型规则类型一致性极低。这些发现揭示了当前AI安全对齐的表面性问题,强调反思性一致性审计需作为传统行为基准的补充,为构建更可信赖的AI系统提供方向。
正文
SNCA框架通过提取模型自我声明的安全规则并测量行为合规性,发现前沿模型在声明策略与观察行为之间存在系统性差距,揭示了架构依赖的自我一致性问题。
章节 01
本文通过符号-神经一致性审计(SNCA)框架,系统性测量前沿大语言模型(LLMs)自我声明安全规则与实际行为的一致性。研究发现模型声明策略与观察行为存在系统性差距,且该差距具有架构依赖性;推理模型虽自我一致性更高,但部分有害类别无法明确表达策略;跨模型规则类型一致性极低。这些发现揭示了当前AI安全对齐的表面性问题,强调反思性一致性审计需作为传统行为基准的补充,为构建更可信赖的AI系统提供方向。
章节 02
大语言模型通过RLHF内化安全策略,但这些策略未被正式规范且难以检查。现有安全基准仅评估模型是否符合外部标准,未测量其是否遵循自身声明的规则。自我一致性缺失的实践意义在于:若模型无法遵循自身规则,安全对齐可能只是表面行为模仿,而非规则内化,影响可信度且外部基准无法捕捉内部规则与行为的错位。核心问题:模型声称的安全规则与其真实行为是否一致?
章节 03
SNCA框架含三个核心步骤:
章节 04
研究评估4个前沿模型,覆盖45个有害类别(暴力、仇恨言论、非法建议等)及47496个样本,确保结果统计显著性。实验关键特点:配对设计——对每个有害类别先询问模型策略,再用测试提示观察实际响应,精确测量声明与行为差距。
章节 05
章节 06
章节 07
局限性:规则提取依赖模型自我报告(可能无法准确描述内部决策);规则形式化可能丢失自然语言细微差别。 未来方向:开发精细规则提取技术(结合激活追踪验证自我报告);扩展SNCA到更多模型和规则类型;研究提高自我一致性的训练方法;探索SNCA在安全微调和对齐中的应用。
章节 08
SNCA框架首次系统性测量LLM自我一致性,揭示声明策略与行为的系统性差距及架构依赖性。当前前沿模型在遵循自身规则方面显著不足,强调反思性一致性审计作为传统行为基准补充的重要性,为构建更可信赖、可解释的AI系统指明方向。