章节 01
【主楼】何时信任工具?ATTC框架解决工具集成推理中的工具忽略问题
本文针对工具集成推理(TIR)中模型常忽略正确工具结果的“工具忽略”问题,提出自适应工具信任校准(ATTC)框架。该框架通过代码块置信度分数指导模型自适应选择信任或忽略工具结果,有效缓解工具忽略现象,在多种模型和数据集上实现4.1%至7.5%的性能提升。
正文
本文介绍ATTC框架,通过代码块置信度分数指导模型自适应地选择信任或忽略工具结果,有效解决工具集成推理中的"工具忽略"问题,性能提升4.1%至7.5%。
章节 01
本文针对工具集成推理(TIR)中模型常忽略正确工具结果的“工具忽略”问题,提出自适应工具信任校准(ATTC)框架。该框架通过代码块置信度分数指导模型自适应选择信任或忽略工具结果,有效缓解工具忽略现象,在多种模型和数据集上实现4.1%至7.5%的性能提升。
章节 02
随着大型推理模型(LRM)的发展,工具集成推理(TIR)成为突破纯参数化推理局限的重要范式,允许模型调用外部工具(如Python、SQL)获取精确结果。然而,现有TIR模型存在“工具忽略”问题:当自身推理与工具结果冲突时,模型常固执己见,甚至主动忽视正确工具输出。这源于训练未显式教导模型评估整合工具结果,导致工具集成沦为表面文章。
章节 03
ATTC框架核心是基于代码块置信度的动态决策机制:
章节 04
实验验证显示ATTC效果显著:
章节 05
ATTC带来技术启示: