章节 01
【主楼/导读】大语言模型形式化推理能力诊断:正则语言测试揭示11种失效模式及干预框架
本研究针对GPT-5.2、Grok-4.1、Gemini-2.5及Qwen2.5系列模型,通过正则语言这一可完全验证的形式化领域,系统性评估其符号推理能力,识别出11种失效模式,并提出VGNS(向量引导神经元选择)干预框架。研究结果为LLM形式化推理能力的边界评估及优化提供重要参考。
正文
一项针对GPT-5.2、Grok-4.1、Gemini-2.5和Qwen2.5的系统性研究,通过正则语言这一可完全验证的形式化领域,识别出大语言模型在符号推理中的11种失效模式,并提出VGNS干预框架。
章节 01
本研究针对GPT-5.2、Grok-4.1、Gemini-2.5及Qwen2.5系列模型,通过正则语言这一可完全验证的形式化领域,系统性评估其符号推理能力,识别出11种失效模式,并提出VGNS(向量引导神经元选择)干预框架。研究结果为LLM形式化推理能力的边界评估及优化提供重要参考。
章节 02
大语言模型在代码生成、数学推理等任务表现亮眼,但形式化推理边界不明。正则语言作为计算理论中最简单的形式语言类别,具有可完全验证特性(字符串是否属于某正则语言可确定性判定),成为测试LLM符号推理的理想沙盒。研究构建180个问题的诊断基准,测试主流模型在不同复杂度层级的能力差异。
章节 03
研究设计四级测试框架,对应不同认知复杂度:
章节 04
研究识别出11种失效模式,分三类: 构造性任务:锚点幻觉、可空性忽视、原子单元盲视、作用域与嵌套混淆; 推导过程:伪结构幻觉、简单路径偏见、复杂性回避; 验证阶段:轨迹伪造、贪婪解析失败、索引与位置漂移、描述-操作失调。
章节 05
对Qwen2.5模型的微调实验显示:
章节 06
针对Tier4任务挑战,提出VGNS框架:通过分析成功/失败案例的内部激活差异,识别“好神经元”,推理时激活修补增强其贡献。4轮迭代后Tier4准确率从85.3%提升至87.7%,优于其他干预方法,但提升有限,表明深层局限可能源于架构或训练数据。
章节 07
研究启示:
章节 08
研究团队已开源实验代码、数据集、训练配置等。未来方向包括:探索更大模型Tier4表现、开发子集构造任务训练数据、研究多模态输入影响、扩展框架到上下文无关语言等更复杂形式语言。