CKG-LLMA：用大语言模型增强知识图谱推荐，并解决幻觉问题

章节 01

导读 / 主楼：CKG-LLMA：用大语言模型增强知识图谱推荐，并解决幻觉问题

原作者与来源

原作者/维护者： Rui Cai, Chao Wang, Qianyi Cai, Dazhong Shen, Hui Xiong（香港科技大学广州校区）
来源平台： GitHub
原始标题： CKG-LLMA: Boosting Knowledge Graph Based Recommendation through Confidence-Aware Augmentation with Large Language Models
原始链接： https://github.com/luisrui/CKG-LLMA
论文链接： https://arxiv.org/abs/2502.03715
发布时间： 2025年2月

背景：知识图谱推荐的困境

知识图谱（Knowledge Graph, KG）推荐系统通过挖掘用户、物品与属性之间的语义关系来提升推荐质量。相比传统的协同过滤方法，KG 能够引入丰富的外部知识，帮助系统理解"为什么用户会喜欢某件商品"——比如"用户A喜欢科幻电影，而《沙丘》是一部科幻史诗"这样的推理链条。

然而，现实世界的知识图谱往往存在三大问题：噪声大（包含错误或过时的关系）、不完整（缺失大量有用的实体关系）、维护成本高（需要大量人工标注和专家知识）。这些问题严重制约了 KG 推荐系统的实际效果。

近年来，大语言模型（LLM）展现出强大的知识抽取与推理能力，似乎为 KG 的自动补全与修复提供了新思路。但直接将 LLM 引入推荐系统也面临一个致命挑战：幻觉（Hallucination）。LLM 可能会生成看似合理但实际上并不存在的"伪知识"，如果盲目将这些信息加入知识图谱，反而会污染推荐信号，降低系统可靠性。

CKG-LLMA 的核心思路

CKG-LLMA（Confidence-aware Knowledge Graph-based Recommendation with LLM Augmentation）正是为了解决上述矛盾而设计的。它的核心创新在于：既利用 LLM 的能力来增强知识图谱，又通过置信度建模机制来识别并抑制 LLM 可能产生的幻觉信息。

该框架包含四个关键组件，形成一个完整的增强-过滤-学习-解释流程：

1. 基于 LLM 的子图增强器

对于每个用户-物品交互样本，系统会提取相关的子图（包含用户历史行为、候选物品及其属性）。然后，LLM 被请求执行两项任务：

补全缺失的关系：识别当前子图中可能缺失的物品-属性或物品-物品关联
删除不合理的关系：标记出子图中可能存在的错误或不合理三元组

这一步的输出是多个"增强视图"的知识图谱——每个视图都经过 LLM 的修补，质量比原始 KG 更高，但也可能引入新的噪声。

2. 置信度感知的消息传播

这是 CKG-LLMA 最核心的创新。在传统的图神经网络（GNN）消息传播过程中，所有边都被同等对待。但 CKG-LLMA 引入了一个关系感知的图注意力网络（RGAT），在学习实体嵌入的同时，为每条边（三元组）学习一个置信度分数。

具体来说，对于每个关系三元组 $(h, r, t)$，模型会估计其可靠性置信度 $c_{h,r,t} \in [0,1]$。在消息聚合时，置信度低的三元组贡献被自动降低。这样，即使 LLM 增强过程中引入了错误信息，这些噪声也会被置信度机制自动抑制，不会主导最终的推荐结果。

3. 双视图对比学习

为了让模型学到更鲁棒的用户与物品表示，CKG-LLMA 设计了对比学习目标：

交互视图 vs. 知识视图：将用户-物品交互矩阵与知识图谱视为两个互补的视图，拉近同一实体在不同视图中的表示
原始视图 vs. 增强视图：对比原始 KG 与 LLM 增强后的 KG，迫使模型识别哪些增强是可靠的、哪些是可疑的

这种对比学习机制不仅提升了表示质量，还隐式地帮助模型区分可信与不可信的增强信息。

4. 置信度感知的解释生成

除了提升推荐准确性，CKG-LLMA 还能生成可解释的推荐理由。系统会提取从用户到推荐物品的多条推理路径（经过 KG 的关系链），并将这些路径及其置信度分数输入 LLM，生成自然语言的解释。

由于置信度分数的参与，生成的解释更有可能基于可靠的知识路径，而非 LLM 的随意编造。这解决了传统可解释推荐中"解释不可信"的问题。

技术实现细节

从代码仓库来看，CKG-LLMA 的实现非常完整：

推荐骨干网络：采用 LightGCN 作为基础推荐器，使用 BPR（Bayesian Personalized Ranking）损失进行训练。KG 嵌入部分则借鉴了 TransE/TransR 的风格，将实体和关系映射到同一向量空间。

关键超参数（可在 YAML 配置中调整）：

isContrastive：是否启用对比学习
isApplyLLMinfo：是否使用 LLM 增强的三元组
isConfiFilter：是否启用置信度过滤
delete_ratio / add_ratio：每步应用的 LLM 删除/添加编辑比例
kgcn：KG 聚合器选择（RGAT、GAT、MEAN 等）

支持的数据集：AmazonBook、Steam、Anime、MovieLens100K。仓库中已包含 AmazonBook 的预处理样本数据。

环境要求：Python 3.10，PyTorch 2.3.0，以及 PyTorch Geometric 相关组件。

实验效果与意义

根据论文摘要，CKG-LLMA 在多个公开数据集上进行了广泛实验，验证了框架的有效性。虽然具体指标需要查阅论文全文，但从设计思路来看，该框架的意义在于：

首次系统性地将 LLM 增强与置信度建模结合，解决了 LLM 幻觉在推荐系统中的实际问题
提供了完整的开源实现，包括数据预处理、模型训练、评估和解释生成全流程
模块化设计，可以方便地适配不同的推荐骨干网络和 KG 数据集

潜在应用场景

CKG-LLMA 的技术路线适用于以下场景：

电商推荐：利用商品属性、类别、品牌等知识增强推荐，同时避免错误属性关联误导用户
内容推荐：在新闻、视频推荐中引入话题、实体知识，提升推荐的多样性与可解释性
企业知识管理：在内部知识库基础上构建推荐系统，自动补全缺失的组织知识

总结

CKG-LLMA 代表了知识图谱推荐系统与大语言模型结合的一个重要方向：不是盲目相信 LLM 的输出，而是建立一套机制来评估和控制 LLM 引入的不确定性。这种"增强+过滤"的双保险策略，为其他需要结合外部知识源的 AI 应用提供了有价值的参考范式。

对于希望在自己的推荐系统中引入 LLM 能力的开发者，CKG-LLMA 提供了一个经过验证的、可直接落地的技术方案。