章节 01
导读:PUMA——推理模型的语义保持早退机制
PUMA是一种针对推理模型的语义保持早退机制,通过检测推理链中的语义冗余判断收敛时机,在保持答案准确性和推理链完整性的同时,平均减少26.2%的token生成,显著提升推理模型效率。该机制解决了大型推理模型(LRMs)的"过度思考"问题,为高效推理提供了新视角。
正文
PUMA通过检测推理链中的语义冗余来判断收敛时机,在保持答案准确性和推理链完整性的同时,平均减少26.2%的token生成,显著提升推理模型效率。
章节 01
PUMA是一种针对推理模型的语义保持早退机制,通过检测推理链中的语义冗余判断收敛时机,在保持答案准确性和推理链完整性的同时,平均减少26.2%的token生成,显著提升推理模型效率。该机制解决了大型推理模型(LRMs)的"过度思考"问题,为高效推理提供了新视角。
章节 02
大型推理模型依赖长思维链(CoT)实现复杂推理,但常出现解决方案稳定后仍生成冗余步骤的情况,浪费计算资源、增加延迟且推理链冗长。
现有早退方法依赖答案级信号(置信度、答案一致性),反映的是答案准备度而非推理收敛度,易导致过早退出(损害准确性)或推理链语义不完整。
章节 03
推理级语义冗余是收敛信号:连续步骤重复已有结论时,推理轨迹已收敛(类比人类"兜圈子"时停止思考)。
仅当冗余检测和答案验证均满足时才早退,平衡安全性与效率。
章节 04
在5个LRM和5个推理基准上的评估显示:
章节 05
章节 06
章节 07
PUMA通过推理级语义冗余实现语义保持早退,不仅提升效率,更提出新视角:有效推理需知道何时停止思考。开源代码为社区提供实用工具。