当前位置：首页 > news >正文

有偏图采样提升推荐效果

news 2026/6/7 9:37:24

有偏图采样以实现更好的相关产品推荐

根据节点的连接度调整邻域大小和采样概率，可将图神经网络嵌入的效用最高提升230%。

作者：Srinivas Virinchi

2023年3月21日

3分钟阅读

会议

WSDM 2023

正文

电子商务网站经常推荐与客户查询相关的产品——例如，为购买手机的用户推荐手机壳。产品关系信息通常用带有有向边的图来表示，这意味着边所代表的关系（可以）仅单向流动：例如，向购买手机的用户推荐手机壳是有意义的，但向购买手机壳的用户推荐手机可能并不需要。

在去年发表于欧洲机器学习会议（ECML）的一篇论文中，我们展示了图神经网络可以通过为每个图节点使用双重嵌入（向量表示）来捕捉产品相似性图的方向性：一个嵌入表示该节点作为推荐源，另一个嵌入表示该节点作为推荐目标。

[示意图：中心是一个图，显示手机与相关产品（如手机壳、电源适配器、屏幕保护膜）之间的关系。左侧是传统图神经网络（GNN）中节点A的嵌入（向量表示）示意图；右侧是BLADE中节点A作为推荐目标（A-t）和推荐源（A-s）的双重嵌入。]

在今年的ACM网络搜索与数据挖掘会议（WSDM）上，我们扩展了这项工作，提出了一种新的有向图节点嵌入方法。具体来说，我们根据图节点的度（即该节点与其他节点的连接数量）来定制嵌入过程。这使得我们能够利用高度连接节点的中心性，同时扩大范围以收集稀疏连接节点的信息。

[相关内容：使用图神经网络推荐相关产品——每个节点的双重嵌入（既作为源又作为目标）和一种新颖的损失函数，比先前方法提升了30%到160%的性能。]

在实验中，我们将新模型的性能与三个最先进的先前模型在六个不同的公共数据集上进行了比较，每个查询分别推荐不同数量的产品（5、10和20个）。我们的模型全面优于其他模型；根据命中率和平均倒数秩的衡量，其与第二佳模型相比的优势范围从4%到230%。

图神经网络

图神经网络（GNN）是以图为输入并为每个图节点输出嵌入的神经网络，这些嵌入不仅捕捉该节点的信息，还捕捉其与其他节点关系的信息。这些嵌入可用于多种任务，如链接预测、异常检测——或者在我们的案例中，用于相关产品推荐。

GNN嵌入是迭代的：首先，网络根据每个节点关联的信息（这里是产品信息）对其进行嵌入；然后，根据节点自身的第一轮嵌入及其连接节点的嵌入，再次对每个节点进行嵌入。这个过程可以无限重复，将嵌入节点的邻域扩展到两跳、三跳——直至整个图的大小。

[相关内容：改进互补产品推荐——新的建模方法使推荐准确率平均提高7%。]

对于有许多密集连接（高度数）节点的图，将所有邻居节点都纳入嵌入可能不切实际。在这种情况下，GNN通常会在嵌入过程的每次迭代中对邻居进行采样。

在典型的GNN实现中，每个节点的邻域大小（即纳入其嵌入的跳数）是固定的，通常为一跳或两跳。通常，节点采样也是均匀的：给定节点的每个邻居都有相等的概率被纳入该节点的嵌入。

这种方法有其局限性。对于一个高度数节点，一跳或两跳嵌入可能就足够了：直接邻域包含了足够的信息来表征该节点。但对于一个低度数节点，可能需要沿着更长的连接链来收集足够的信息以产生有用的嵌入。

同样，如果要嵌入的节点同时连接到一个高度数节点和一个低度数节点，采样高度数节点通常更有成效，因为它的嵌入了更多的邻域信息。因此，均匀采样错失了丰富节点嵌入的机会。

我们的方法称为BLADE（有偏局部自适应方向感知），解决了这两个局限性。它从我们之前提出的框架开始，该框架为每个节点生成源嵌入和目标嵌入。

[相关内容：两篇亚马逊论文获AAAI最佳论文奖亚军——研究如何在搜索空间巨大时构建推荐算法，以及如何在COVID-19文献上执行自然语言搜索。]

然而，其嵌入的范围会根据被嵌入节点的入度（入边方向上的度数）而变化。在论文中，我们展示了如何使用幂律分布来计算邻域大小，该幂律分布考虑了节点的入度和图中所有节点的最小入度。我们还展示了如何通过考虑图中所有节点的入度来估计幂律系数。

我们还提供了一种机制，通过在嵌入过程中考虑节点的出度和入度，来加权采样节点邻居的概率。

除了在六个公共数据集上测试我们的方法外，我们还在两个大型内部数据集上进行了测试。在这些数据集上，我们的模型带来的改进同样显著，与第二佳模型相比，性能提升范围从40%到214%。更多细节可以在我们的论文中找到。

研究领域

搜索与信息检索

会议

WSDM 2023

关于作者

Srinivas Virinchi是某机构印度的应用科学家。FINISHED
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

查看全文

http://www.jsqmd.com/news/604588/

博途V15.1 PLC模拟量滤波程序：西门子通用，多种参数可选，智能报警，滤波功能强大，注释详...

Docker化国标视频平台：WVP-PRO与ZLMediaKit的协同部署实战

专业级二维码生成器功能对比：为何二维彩虹是设计与商务的终极优选？ - 企业推荐官【官方】

【Java】TOP-K问题

实战演练：用快马AI快速打造集成终端功能的服务器监控与部署面板

当 AI 开始一本正经地胡说八道：DeepSeek 幻觉率 14%给技术人的警示

面向嘈杂语音的对话建模新挑战

手把手教你用Python实现TOTP动态验证码生成器（附完整代码）

AI同事抑郁症诊断报告：大模型存在主义危机爆发

牧苏苏传辣个男人回来了 4/6

2026最权威的五大降AI率平台实际效果

焊接仓储笼、仓储箱、周转箱、网格铁框、金属周转箱、仓储货架网、仓储货架网片厂家电话 - 企业推荐官【官方】

我用Hermes Agent的经历——对比OpenClaw

硕博生一定要尽快掌握用AI绘图啊！！

电-气综合能源系统能量与备用调度：基于Wasserstein距离和CVaR条件风险价值的分布鲁...

快速降AI率哪款工具最值得试？按需求推荐 - 我要发一区

Rust所有权与借用规则深度解析：从踩坑到理解

面向对象高级(多态）

想找国内知名光变UV变色纱线生产厂家？这3家值得关注 - 企业推荐官【官方】

靠谱的厚板吸塑实力厂家 - 企业推荐官【官方】

手把手教你用R-Studio恢复误删文件：从下载到恢复的保姆级避坑指南

告别数据映射困惑：手把手教你配置ADRV9009的JESD204B接口（以BR3109为例）

鼎捷T100程序开发实战：从核心类型到高效开发全解析

Windows系统性能优化全景指南：从诊断到长效管理的科学路径

【OpenCode】opencode配置minimax2.7【day2】

语文_中考_古诗词

双编码器在UR5机器人零力拖动中的实现与优化

YALMIP求解器设置避坑指南：从`verbose`到`relax`，这些参数设置错了可能让你白算一整天

终极Windows右键菜单优化指南：如何用ContextMenuManager快速清理杂乱菜单

CVPR/ICCV跟踪新趋势解读：对比学习如何让MOT模型学会“认人”？