Zing 论坛

正文

CKG-LLMA:用大语言模型增强知识图谱推荐,并解决幻觉问题

本文介绍 CKG-LLMA 框架,它利用大语言模型增强知识图谱推荐系统,同时通过置信度建模机制过滤 LLM 可能产生的幻觉信息,实现更可靠的推荐与可解释性。

知识图谱推荐大语言模型LLM幻觉对比学习图神经网络推荐系统可解释性LightGCN置信度建模
发布时间 2026/06/03 02:45最近活动 2026/06/03 02:47预计阅读 5 分钟
CKG-LLMA:用大语言模型增强知识图谱推荐,并解决幻觉问题
1

章节 01

导读 / 主楼:CKG-LLMA:用大语言模型增强知识图谱推荐,并解决幻觉问题

原作者与来源

  • 原作者/维护者: Rui Cai, Chao Wang, Qianyi Cai, Dazhong Shen, Hui Xiong(香港科技大学广州校区)
  • 来源平台: GitHub
  • 原始标题: CKG-LLMA: Boosting Knowledge Graph Based Recommendation through Confidence-Aware Augmentation with Large Language Models
  • 原始链接: https://github.com/luisrui/CKG-LLMA
  • 论文链接: https://arxiv.org/abs/2502.03715
  • 发布时间: 2025年2月

背景:知识图谱推荐的困境

知识图谱(Knowledge Graph, KG)推荐系统通过挖掘用户、物品与属性之间的语义关系来提升推荐质量。相比传统的协同过滤方法,KG 能够引入丰富的外部知识,帮助系统理解"为什么用户会喜欢某件商品"——比如"用户A喜欢科幻电影,而《沙丘》是一部科幻史诗"这样的推理链条。

然而,现实世界的知识图谱往往存在三大问题:噪声大(包含错误或过时的关系)、不完整(缺失大量有用的实体关系)、维护成本高(需要大量人工标注和专家知识)。这些问题严重制约了 KG 推荐系统的实际效果。

近年来,大语言模型(LLM)展现出强大的知识抽取与推理能力,似乎为 KG 的自动补全与修复提供了新思路。但直接将 LLM 引入推荐系统也面临一个致命挑战:幻觉(Hallucination)。LLM 可能会生成看似合理但实际上并不存在的"伪知识",如果盲目将这些信息加入知识图谱,反而会污染推荐信号,降低系统可靠性。

CKG-LLMA 的核心思路

CKG-LLMA(Confidence-aware Knowledge Graph-based Recommendation with LLM Augmentation)正是为了解决上述矛盾而设计的。它的核心创新在于:既利用 LLM 的能力来增强知识图谱,又通过置信度建模机制来识别并抑制 LLM 可能产生的幻觉信息

该框架包含四个关键组件,形成一个完整的增强-过滤-学习-解释流程:

1. 基于 LLM 的子图增强器

对于每个用户-物品交互样本,系统会提取相关的子图(包含用户历史行为、候选物品及其属性)。然后,LLM 被请求执行两项任务:

  • 补全缺失的关系:识别当前子图中可能缺失的物品-属性或物品-物品关联
  • 删除不合理的关系:标记出子图中可能存在的错误或不合理三元组

这一步的输出是多个"增强视图"的知识图谱——每个视图都经过 LLM 的修补,质量比原始 KG 更高,但也可能引入新的噪声。

2. 置信度感知的消息传播

这是 CKG-LLMA 最核心的创新。在传统的图神经网络(GNN)消息传播过程中,所有边都被同等对待。但 CKG-LLMA 引入了一个关系感知的图注意力网络(RGAT),在学习实体嵌入的同时,为每条边(三元组)学习一个置信度分数。

具体来说,对于每个关系三元组 $(h, r, t)$,模型会估计其可靠性置信度 $c_{h,r,t} \in [0,1]$。在消息聚合时,置信度低的三元组贡献被自动降低。这样,即使 LLM 增强过程中引入了错误信息,这些噪声也会被置信度机制自动抑制,不会主导最终的推荐结果。

3. 双视图对比学习

为了让模型学到更鲁棒的用户与物品表示,CKG-LLMA 设计了对比学习目标:

  • 交互视图 vs. 知识视图:将用户-物品交互矩阵与知识图谱视为两个互补的视图,拉近同一实体在不同视图中的表示
  • 原始视图 vs. 增强视图:对比原始 KG 与 LLM 增强后的 KG,迫使模型识别哪些增强是可靠的、哪些是可疑的

这种对比学习机制不仅提升了表示质量,还隐式地帮助模型区分可信与不可信的增强信息。

4. 置信度感知的解释生成

除了提升推荐准确性,CKG-LLMA 还能生成可解释的推荐理由。系统会提取从用户到推荐物品的多条推理路径(经过 KG 的关系链),并将这些路径及其置信度分数输入 LLM,生成自然语言的解释。

由于置信度分数的参与,生成的解释更有可能基于可靠的知识路径,而非 LLM 的随意编造。这解决了传统可解释推荐中"解释不可信"的问题。

技术实现细节

从代码仓库来看,CKG-LLMA 的实现非常完整:

推荐骨干网络:采用 LightGCN 作为基础推荐器,使用 BPR(Bayesian Personalized Ranking)损失进行训练。KG 嵌入部分则借鉴了 TransE/TransR 的风格,将实体和关系映射到同一向量空间。

关键超参数(可在 YAML 配置中调整):

  • isContrastive:是否启用对比学习
  • isApplyLLMinfo:是否使用 LLM 增强的三元组
  • isConfiFilter:是否启用置信度过滤
  • delete_ratio / add_ratio:每步应用的 LLM 删除/添加编辑比例
  • kgcn:KG 聚合器选择(RGAT、GAT、MEAN 等)

支持的数据集:AmazonBook、Steam、Anime、MovieLens100K。仓库中已包含 AmazonBook 的预处理样本数据。

环境要求:Python 3.10,PyTorch 2.3.0,以及 PyTorch Geometric 相关组件。

实验效果与意义

根据论文摘要,CKG-LLMA 在多个公开数据集上进行了广泛实验,验证了框架的有效性。虽然具体指标需要查阅论文全文,但从设计思路来看,该框架的意义在于:

  1. 首次系统性地将 LLM 增强与置信度建模结合,解决了 LLM 幻觉在推荐系统中的实际问题
  2. 提供了完整的开源实现,包括数据预处理、模型训练、评估和解释生成全流程
  3. 模块化设计,可以方便地适配不同的推荐骨干网络和 KG 数据集

潜在应用场景

CKG-LLMA 的技术路线适用于以下场景:

  • 电商推荐:利用商品属性、类别、品牌等知识增强推荐,同时避免错误属性关联误导用户
  • 内容推荐:在新闻、视频推荐中引入话题、实体知识,提升推荐的多样性与可解释性
  • 企业知识管理:在内部知识库基础上构建推荐系统,自动补全缺失的组织知识

总结

CKG-LLMA 代表了知识图谱推荐系统与大语言模型结合的一个重要方向:不是盲目相信 LLM 的输出,而是建立一套机制来评估和控制 LLM 引入的不确定性。这种"增强+过滤"的双保险策略,为其他需要结合外部知识源的 AI 应用提供了有价值的参考范式。

对于希望在自己的推荐系统中引入 LLM 能力的开发者,CKG-LLMA 提供了一个经过验证的、可直接落地的技术方案。