正文

评估意识对语言模型行为的影响有限：重新审视VEA安全风险的实证研究

通过on-policy和off-policy实验，系统评估语言模型思维链中的"评估意识"（VEA）对模型行为的真实影响。研究发现VEA对模型输出的影响极其有限，挑战了将高VEA率等同于策略性行为或对齐篡改的既有观点。

评估意识思维链AI安全对齐语言模型策略性行为因果推断模型评估

发布时间 2026/05/07 16:09最近活动 2026/05/08 12:59预计阅读 2 分钟

章节 01

导读：VEA对语言模型行为影响有限的实证研究核心观点

本研究通过on-policy和off-policy实验系统评估语言模型思维链中的“言语化评估意识（VEA）”对行为的真实影响，发现VEA对模型输出的影响极其有限，挑战了将高VEA率等同于策略性行为或对齐篡改的既有观点。

章节 02

大型推理模型（LRMs）在思维链中会显式表达“可能被评估”的元认知行为（VEA），引发虚假安全表现、对齐篡改、评估效度威胁等担忧。但现有研究仅关注VEA发生率和相关性，缺乏因果干预实验验证VEA是否真的改变行为。

章节 03

On-Policy分析：自然生成思维链，比较自发VEA与非VEA样本的答案分布，反映真实行为但存在选择偏差；Off-Policy分析：通过预填充技术注入/移除VEA语句，主动操纵变量以推断因果关系；评估维度覆盖安全性、对齐、道德推理、政治观点。

章节 04

VEA注入效应量ω≤0.06（可忽略）；2. VEA移除效应量ω≤0.12（小效应）；3. 自发VEA最大效应量ω≤0.31（小-中等，分布偏移最多3.7%）；4. 结果在不同模型和任务中保持一致。

章节 05

重新评估VEA风险，其可能只是训练数据模式而非策略性推理；2. 区分模型“说”与“做”；3. 关注训练数据污染、奖励黑客等更真实风险；4. 改进评估方法（多场景测试、行为测量、长期监控）。

章节 06

结论：VEA对模型行为影响远低于假设，不构成重大安全威胁；局限：VEA检测依赖关键词、干预方式单一、未覆盖专有模型及高风险场景；未来需更精细检测、扩展模型范围及研究长期效应。