章节 01
TRN-R1-Zero:纯强化学习实现文本丰富网络推理的新范式(导读)
本文介绍TRN-R1-Zero框架,通过纯强化学习训练大语言模型进行文本丰富网络推理,无需监督微调或蒸馏,实现跨域零样本推理能力。该框架针对传统GNN依赖监督学习、现有LLM忽略图结构或依赖蒸馏的困境,设计邻居感知群体相对策略优化(NG-RPO)机制,在多基准上表现优异,展现通用网络推理能力。
正文
本文介绍了TRN-R1-Zero框架,通过纯强化学习训练大语言模型进行文本丰富网络推理,无需监督微调或蒸馏,实现了跨域零样本推理能力。
章节 01
本文介绍TRN-R1-Zero框架,通过纯强化学习训练大语言模型进行文本丰富网络推理,无需监督微调或蒸馏,实现跨域零样本推理能力。该框架针对传统GNN依赖监督学习、现有LLM忽略图结构或依赖蒸馏的困境,设计邻居感知群体相对策略优化(NG-RPO)机制,在多基准上表现优异,展现通用网络推理能力。
章节 02
现实中大量数据以文本丰富网络(TRNs)形式存在(如引用、社交、商品共购网络),需整合文本语义与拓扑结构。传统GNN依赖监督学习,泛化差;现有LLM方法或忽略图结构,或依赖蒸馏思维链数据,成本高且泛化受限。关键挑战是实现零样本推理及跨域迁移能力。
章节 03
TRN-R1-Zero为纯强化学习后训练框架,摒弃监督微调和蒸馏。核心机制NG-RPO通过边际增益指标量化邻居信息贡献,动态调整奖励:利用有价值邻居信息推理正确时获更高奖励,引导模型选择性关注有用邻居,实现动态适应与增强可解释性。
章节 04
在引用(Cora、PubMed)、社交(Facebook、Twitter)、商品共购等基准上,TRN-R1-Zero显著优于现有方法。跨域迁移能力突出:仅节点级训练即可处理边级(预测社交关系)和图级(评估社区属性)任务,实现零样本跨域推理,学习通用规律而非特定技巧。
章节 05
对比传统GNN:具备零样本泛化与跨域能力,无需单独训练;对比其他LLM:纯RL避免过拟合与蒸馏依赖,探索超越教师模型的策略;填补LLM忽略图结构空白,通过NG-RPO建模邻居价值。
章节 06
局限:RL训练计算成本高,仅适用于同质网络,可解释性待增强。未来方向:优化计算效率、扩展到异质网络、提升模型透明度与可解释性。
章节 07
TRN-R1-Zero是文本丰富网络推理的突破,赋予LLM网络推理能力,实现跨域零样本推理,为通用AI提供新思路。未来有望应用于推荐、知识发现、社交分析等领域,释放网络数据价值。