章节 01
正文
知识图谱驱动的强化学习奖励建模:将推理能力注入RLHF新范式
本文介绍LARK NLP Lab开源的kg-rl-reasoner项目,探索如何利用知识图谱构建奖励模型,为大语言模型的强化学习人类反馈(RLHF)提供更可解释、更结构化的推理基础。
知识图谱强化学习RLHF奖励建模可解释AI神经符号AI推理大语言模型AI对齐
正文
本文介绍LARK NLP Lab开源的kg-rl-reasoner项目,探索如何利用知识图谱构建奖励模型,为大语言模型的强化学习人类反馈(RLHF)提供更可解释、更结构化的推理基础。
章节 01