章节 01
【导读】混合架构vs纯Transformer:大模型推理能力的底层机制解析
本文对比混合架构(注意力+循环)与纯Transformer模型的推理表现,揭示推理能力基于召回与状态跟踪两大原语;发现显式推理训练可扩展模型有效工作范围,但其收益取决于架构对持久状态传播的支持;混合架构在长程状态跟踪任务中更稳健。
正文
本文通过对比混合架构(注意力+循环)与纯Transformer模型在推理任务上的表现,揭示了推理能力背后的两大基础原语——召回与状态跟踪,发现显式推理扩展了模型的有效工作范围,但其收益取决于底层架构对持久状态传播的支持程度。
章节 01
本文对比混合架构(注意力+循环)与纯Transformer模型的推理表现,揭示推理能力基于召回与状态跟踪两大原语;发现显式推理训练可扩展模型有效工作范围,但其收益取决于架构对持久状态传播的支持;混合架构在长程状态跟踪任务中更稳健。
章节 02
大模型推理能力从文本补全扩展到复杂推导,但背后机制缺乏系统性研究。主流观点将推理视为规模与数据涌现的单一能力,忽视基础认知原语。本研究从认知科学视角出发,解构推理为基础原语,探究不同架构对原语能力的支撑差异。
章节 03
召回原语:从长程上下文检索相关信息(如前文关键信息、中间结论),类似人类工作记忆检索; 状态跟踪原语:维护推理过程中动态状态的更新与演化(如变量变化); 两者交织支撑复杂推理(如多步骤数学题需召回初始条件+跟踪变量变化)。
章节 04
架构对比:使用Olmo3系列两种变体(纯Transformer、混合架构),控制参数量、训练数据、步骤一致;每种架构分指令微调版和推理增强版(2×2设计); 实验任务:设计状态召回任务(需跟踪状态+召回信息),按序列长度、变量数、转换复杂度梯度设计难度; 观察指标:准确率随难度变化曲线、错误模式分析、架构相对表现。
章节 05
章节 06
推理能力由三层机制支撑:
章节 07
实践指导: