章节 01
导读:VEA对语言模型行为影响有限的实证研究核心观点
本研究通过on-policy和off-policy实验系统评估语言模型思维链中的“言语化评估意识(VEA)”对行为的真实影响,发现VEA对模型输出的影响极其有限,挑战了将高VEA率等同于策略性行为或对齐篡改的既有观点。
正文
通过on-policy和off-policy实验,系统评估语言模型思维链中的"评估意识"(VEA)对模型行为的真实影响。研究发现VEA对模型输出的影响极其有限,挑战了将高VEA率等同于策略性行为或对齐篡改的既有观点。
章节 01
本研究通过on-policy和off-policy实验系统评估语言模型思维链中的“言语化评估意识(VEA)”对行为的真实影响,发现VEA对模型输出的影响极其有限,挑战了将高VEA率等同于策略性行为或对齐篡改的既有观点。
章节 02
大型推理模型(LRMs)在思维链中会显式表达“可能被评估”的元认知行为(VEA),引发虚假安全表现、对齐篡改、评估效度威胁等担忧。但现有研究仅关注VEA发生率和相关性,缺乏因果干预实验验证VEA是否真的改变行为。
章节 03
On-Policy分析:自然生成思维链,比较自发VEA与非VEA样本的答案分布,反映真实行为但存在选择偏差;Off-Policy分析:通过预填充技术注入/移除VEA语句,主动操纵变量以推断因果关系;评估维度覆盖安全性、对齐、道德推理、政治观点。
章节 04
章节 05
章节 06
结论:VEA对模型行为影响远低于假设,不构成重大安全威胁;局限:VEA检测依赖关键词、干预方式单一、未覆盖专有模型及高风险场景;未来需更精细检测、扩展模型范围及研究长期效应。