章节 01
LongTraceRL:基于搜索智能体轨迹与评分奖励的长上下文推理学习(导读)
LongTraceRL:基于搜索智能体轨迹与评分奖励的长上下文推理学习
摘要:LongTraceRL通过构建分层干扰文档和使用实体级评分奖励,解决了长上下文推理中的干扰信息处理和过程监督难题,在多个基准测试中表现优异。 关键词:长上下文推理, 强化学习, 过程监督, 知识图谱, 搜索智能体, 奖励设计, 多跳推理, RLVR 核心观点:LongTraceRL针对长上下文推理中模型注意力分散、信息遗漏等问题,创新利用搜索智能体轨迹构建分层干扰项,并设计实体级评分奖励实现细粒度过程监督,显著提升模型在复杂场景下的推理能力。