当前位置：首页 > news >正文

知识图谱与大语言模型融合的推荐系统创新实践

news 2026/6/8 5:04:36

1. 项目概述

推荐系统作为信息过滤的核心技术，其本质是通过分析用户历史行为和项目特征来预测潜在兴趣。传统协同过滤方法虽然简单有效，但面临着数据稀疏性和冷启动等固有挑战。近年来，知识图谱技术因其能够有效建模实体间复杂关系，为推荐系统提供了丰富的语义信息补充。与此同时，大语言模型(LLM)展现出的强大推理能力，为推荐任务带来了全新的机遇。

PIDLR(Preference Hint Discovery for LLM-based Recommendation)模型正是在这一背景下提出的创新解决方案。它巧妙结合了知识图谱的结构化表示能力和LLM的语义理解优势，通过实例级偏好提示发现机制，从用户历史交互和协作数据中提取关键特征作为提示词(prompt)，显著提升了推荐效果。在MovieLens和LastFM标准数据集上的实验表明，该技术在Hit Ratio@1指标上最高可获得6.77%的提升，特别在少样本场景下展现出强大的适应性。

提示：实例级学习(Instance-wise Learning)是PIDLR的核心创新，它不同于传统模型对所有样本采用相同处理方式，而是针对每个用户-项目对动态发现最具判别力的特征子集。

2. 技术架构解析

2.1 整体设计思路

PIDLR的架构设计基于一个关键观察：传统推荐模型和LLM在推荐任务中存在天然的互补性。传统模型擅长从结构化数据中挖掘统计规律，而LLM则长于理解语义信息和进行推理。PIDLR的创新之处在于建立了两者之间的"桥梁"——将传统模型发现的偏好模式转化为LLM可理解的提示词。

模型包含三个核心组件：

协作偏好提示提取模块：通过图神经网络分析用户相似性，发现潜在偏好
实例级提示发现模块：为每个用户-项目对筛选最具判别力的特征子集
提示优化与集成模块：将结构化特征转化为自然语言提示，输入LLM进行最终推荐

这种设计既保留了传统推荐模型的计算效率，又充分发挥了LLM的推理能力，在计算成本和推荐质量之间取得了良好平衡。

2.2 知识图谱的构建与应用

知识图谱作为PIDLR的基础数据结构，其构建质量直接影响模型性能。以MovieLens数据集为例，典型的知识图谱包含以下实体和关系：

实体类型：用户、电影、演员、导演、流派、制作公司等
关系类型：用户-评分-电影、电影-属于-流派、电影-主演-演员等
属性信息：电影上映年份、用户 demographics 等

知识图谱的嵌入表示采用TransR算法，其核心思想是将实体和关系映射到不同的语义空间，通过投影矩阵进行转换。具体计算过程如下：

对于每个三元组(h,r,t)，先将头实体h和尾实体t映射到关系r的空间： $$ h_r = hM_r, \quad t_r = tM_r $$
计算得分函数： $$ f_r(h,t) = ||h_r + r - t_r||_2^2 $$
通过负采样优化目标函数： $$ \mathcal{L} = \sum_{(h,r,t)\in G} \sum_{(h',r,t')\in G'} [\gamma + f_r(h,t) - f_r(h',t')]_+ $$

这种表示方法能够有效捕捉实体在不同关系下的语义差异，为后续的偏好发现奠定基础。

3. 核心算法实现

3.1 协作偏好提示提取

该模块旨在解决数据稀疏性问题，通过相似用户的偏好来补充目标用户的潜在兴趣。其关键技术在于用户相似性的度量——不仅考虑显式交互行为，还融合知识图谱中的语义相似度。

具体实现步骤：

构建用户-项目二部图，计算基于交互的协同相似度： $$ sim_{collab}(u,v) = \frac{|I_u \cap I_v|}{\sqrt{|I_u||I_v|}} $$
在知识图谱上计算用户语义相似度： $$ sim_{kg}(u,v) = \frac{\sum_{e\in E_u \cap E_v} w_e}{\sqrt{\sum_{e\in E_u} w_e \sum_{e\in E_v} w_e}} $$
融合两种相似度得到最终度量： $$ sim(u,v) = \alpha \cdot sim_{collab}(u,v) + (1-\alpha) \cdot sim_{kg}(u,v) $$
为每个用户选择Top-N相似用户，聚合他们的偏好特征