GCE-GNN:基于会话的推荐的全局上下文增强图神经网络

时间：2020-11-04 22:44:10 阅读：44 评论：0 收藏：0 [点我收藏+]

摘要:基于会话的推荐（SBR）是一项具有挑战性的任务，旨在基于匿名行为序列来推荐项目。几乎所有现有的SBR解决方案都仅基于当前会话来模拟用户的性能，而没有利用其他会话，这些会话可能包含与当前会话相关的项目转换和无关的项目转换。本文提出了一种称为“全局上下文增强图神经网络”（GCE-GNN）的新颖方法，该方法以更细微的方式利用所有会话上的项转换，以更好地推断当前会话的用户偏好。具体而言，GCE-GNN分别从会话图和全局图学习两个级别的项目嵌入：（i）会话图，通过在当前会话中对成对的项目转换进行建模来学习会话级别的项目嵌入。 ; （ii）全局图，它将通过对所有会话中的成对项转换建模来学习全局级项嵌入。在GCE GNN中，我们提出了一种新颖的全局级项目表示学习层，该层采用会话感知的关注机制将所有节点的邻居嵌入在全局图中递归地合并。我们还设计了一个会话级项目表示学习层，该层在会话图上使用GNN来学习当前会话中的会话级项目嵌入。此外，GCE-GNN通过柔和的关注机制在两个级别上汇总了学习到的项目表示。对三个基准数据集的实验表明，GCE-GNN始终优于最新方法。

1.引言

推荐系统在成功地通过向用户推荐有用的内容来解决信息过载问题方面发挥着关键作用。常规推荐方法（例如，协作过滤[11]）通常依赖于用户配置文件和长期历史互动的可用性，并且在许多最新的真实场景中（例如，像YouTube1和Tiktok2这样的移动流媒体）可能效果不佳，当此类信息不可用（例如，未登录的用户）或有限的可用信息（例如，短期历史交互）时。因此，基于会话的推荐最近引起了广泛的关注，该推荐基于给定的匿名行为序列按时间顺序预测下一个感兴趣的项目。

早期关于基于会话的推荐的大多数研究都分为两类，即基于相似性的[11]和基于链的[12]。前者在当前会话中严重依赖项目的共现信息，而忽略了顺序行为模式。稍后将推断用户对所有项目进行选择的所有可能顺序，这对于项目数量很大的实际应用可能会遇到难以解决的计算问题。最近，针对该任务提出了许多基于深度学习的方法，这些方法利用成对项目转移信息对给定会话的用户偏好进行建模[2、4、6、18、19、21]。

这些方法取得了令人鼓舞的结果，但是它们仍然面临以下问题。首先，它们中的一些通过使用递归神经网络（RNN）（例如，GRU4REC [2]，NARM [6]）和内存网络（例如，按时间顺序）依次提取会话的成对项转换信息来推断匿名用户的偏好。，邮票[8]）。但是，一个会话可能包含多个用户选择甚至噪声，因此它们可能不足以生成所有正确的依赖项，而后者却无法对嵌入中的项目过渡模式的复杂固有顺序进行建模。其次，其他的基于图神经网络[7、24、25]，具有自注意机制，例如SR-GNN [24]。他们根据会话在每个项目和最后一个项目之间的成对项目转换来计算相对重要性，从而学习整个会话的表示方式，并且性能很大程度上取决于最后一个项目与当前用户的偏好之间的相关性会议。

此外，几乎所有以前的研究仅基于当前会话来建模用户偏好，而忽略了其他会话中有用的项目转换模式。据我们所知，CSRM [19]是唯一结合了来自最新??会议的协作信息以端到端方式丰富当前会议代表的工作。 CSRM将会话视为最小粒度，并测量当前会话与最新会话之间的相似性，以提取协作信息。然而，不幸的是，它可能会将其他会话的相关和不相关信息都编码为当前会话嵌入，这甚至可能会降低性能[21]。我们通过图1中的示例进行说明。在不失一般性的前提下，假设当前会话为“会话2”，基于会话的推荐旨在推荐与“ Iphone”相关的附件。从图3中，我们观察到：（i）利用其他会话的项转换可能有助于对当前会话的用户偏好进行建模。例如，我们可以从“会话1”和“会话3”中找到会话2的相关成对项目转换信息，例如，新的成对项目转换“ [Iphone，电话盒]”；（ii）当在该会话中编码的部分项目转换信息的一部分与当前会话无关时，直接利用整个其他会话的项目转换信息可能会引入噪声。例如，如果“会话3”是最新的会话之一，CSRM [19]也可以考虑利用“会话3”来帮助建模“会话2”的用户偏好，并且它将引入不相关的项（即， “衣服”和“裤子”）在学习“会话2”的嵌入时将其视为“会话3”的整体，而又不区分相关的项转换和非必要的项转换，这具有挑战性。

为此，我们提出了一种新颖的方法，以一种更微妙的方式利用所有会话上的项转换，以便更好地为基于会话的推荐吸引当前会话的用户偏好，该方法称为“全局上下文增强图神经网络”。（GCE-GNN）。在GCE-GNN中，我们建议分别从会话图和全局图学习两个级别的项目嵌入：（i）会话图，即通过对当前会话中的成对项目转换建模来学习会话级项目嵌入；（ii）全局图，该全局图是通过对会话（包括当前会话）上的成对项目转换建模来学习全局级别的项目嵌入。在GCE-GNN中，我们提出了一种新颖的全局级项目表示学习层，该层采用会话感知的注意力机制将每个节点的邻居的嵌入递归地合并到全局图上。我们还设计了一个会话级项目表示学习层，该层在会话图上使用GNN来学习当前会话内的会话级项目嵌入。此外，GCE-GNN ag通过柔和的关注机制在两个级别上聚合学习到的项目表示。

这项工作的主要贡献概括如下：

?据我们所知，这是在所有会话中利用全局级项转换来学习全局级上下文信息以进行基于会话的推荐的第一项工作。

?我们提出了一个统一的模型，通过有效地利用两个级别的图形模型（即会话图形和全局图形）中的成对项目转换信息来提高当前会话的推荐性能。

?我们还建议注意位置，将反向的位置信息合并到项目嵌入中，这显示了基于会话的推荐的优越性能。

?我们在三个现实世界的数据集上进行了广泛的实验，这些实验表明GCE-GNN优于包括最新方法在内的九个基准。

2.相关工作

2.1 基于马尔可夫链的SBR。尽管最初不是为SBR设计的，但可以将几种传统方法用于SBR。例如，基于markov Chain的方法将当前会话映射到Markov链，然后根据前一个推断用户的下一个动作。 Rendle等。 [10]提出FPMC通过基于矩阵分解和一阶马尔可夫链的推荐的混合方法来捕获顺序模式和长期用户偏好。可以通过忽略用户潜在表示来适应SBR，因为它不适用于匿名SBR。但是，基于MC的方法通常专注于对两个相邻项目的顺序过渡进行建模。相反，我们提出的模型将顺序的项目转换转换为图结构数据，以捕获SBR的项目转换模式的固有顺序。

基于深度学习的SBR。近年来，能够建模顺序数据的基于神经网络的方法已用于SBR。 Hidasi等。 [2]提出了第一个名为GRU4REC的工作，将RNN网络应用于SBR，该工作采用多层门控循环单元（GRU）建模项目交互序列。然后，谭等人。 [15]通过引入数据扩充来扩展方法[2]。 Li等。文献[6]提出了将注意力机制纳入堆栈GRU编码器的NARM，以捕获更具有代表性的SBR项目转换信息。刘等。 [8]提出了一种基于注意力的短期记忆网络（名称为STAMP）来捕获用户当前的兴趣，而无需使用RNN。

NARM和STAMP都通过使用注意力机制来强调最后点击的重要性。受[16]启发，SAS Rec [4]堆叠了多层以捕获项目之间的相关性。 ISLF [13]考虑了用户的兴趣转移，并采用变分自动编码器（VAE）和RNN来捕获用户的SBR顺序行为特征。 MCPRN [21]提议通过使用SBR的混合通道模型来模拟给定会话的多用途。但是，类似于基于MC的方法，基于RNN的方法着重于对相邻项目的顺序转换进行建模[20]，以通过给定序列的时间顺序推断用户的偏好，因此无法对复杂的项目转换模式进行建模（例如非相邻的商品转换）。

最近，一些提案在当前会话构建的图上采用了基于GNN的模型来学习SBR的项目嵌入。

Wu等。 [24]提出了一个门控GNN模型（称为SR-GNN）来学习会话图上的项目嵌入，然后通过将每个学习到的项目嵌入与关注度进行集成来获得代表性的会话嵌入，这是根据每个项目与对象之间的相关性来计算的。最后一个。继SR-GNN成功之后，也为SBR提出了一些变体，例如GC-SAN [25]。邱等。 [9]提出FGNN通过多邻居关注其邻居的嵌入来学习每个项目的表示，并通过将每个学习到的嵌入与每次会话的相关性进行重复编辑组合来生成最终的会话表示。但是，所有这些方法仅在当前会话上对项目转换信息进行建模。相反，我们提出的模型在所有会话中学习项目转换信息，以增强对当前会话的学习。

基于协作过滤的SBR。尽管基于深度学习的方法已经取得了卓越的性能，但是基于协作过滤（CF）的方法仍然可以提供有竞争力的结果。

通过推荐与当前会话的最后一个项目最相似的项目，可以为SBR扩展Item-KNN [11]。 KNN RNN [3]利用GRU4REC [2]和基于共现的KNN模型来提取SBR的顺序模式。最近，Wang等。 [19]提出了一种名为CSRM的端到端神经模型，该模型可以实现最先进的性能。它首先利用NARM在项目过渡上对每个会话进行编码，然后通过探索最新的邻域会话来丰富当前会话的表示，最后利用融合选通机制来学习组合不同特征源。但是，在为当前会话整合其他会话的嵌入内容时，可能会受到干扰。相反，我们提出的方法在项目级别考虑协作信息：我们在其他会话中使用项目嵌入来丰富当前会话的项目嵌入，然后将它们集成到SBR的会话表示中。

3.2.1会话图模型

我们的会话图根据项??和项between之间的关系具有四种边缘，

分别由

表示。

对于

，

表示

，

揭示了从

和

，

表示自连接。

3.2.2 全局图模型。与传统的基于深度学习的方法（例如，基于RNN的[6]）专注于对整个会话的顺序模式进行建模相比，会话图可以有效地捕获会话的复杂图模式以学习会话级项嵌入。但是，我们还旨在从其他会话中捕获项目转移信息以学习项目表示，这称为全局级别的项目转移信息

全局级项目过渡建模

在这里，我们通过在会话中集成所有成对的项转换来考虑用于全局项表示的account全局项转换。因此，我们提出了一种新颖的全局图模型，用于学习全局级项目嵌入，该模型分解了序列基于所有会话（包括当前会话）的成对转换来链接所有项目对的独立性假设。

接下来，我们首先提出一个用于建模全局级项目转移的概念（即??-邻居集），然后给出全局图的定义。

根据定义1，对于每个项????∈??，全局级别的项转换定义为{（????，????）|????，????∈??;????∈N??（????）}。

值得注意的是，为了提高效率，我们没有区分全局级别项目转移信息的方向。

全局图。全局图旨在捕获全局级别的项目转换信息，该信息将用于学习所有会话中的项目嵌入。具体来说，全局图是基于所有会话中的??邻居项集构建的。不失一般性，全局图定义如下，令G let =（V??，E??）为全局图，其中V??表示包含??中所有项目的图节点集。

表示一组边，每个边对应于所有会话中的两个成对项。

图2b显示了构造全局图（?? = 2）的示例。另外，对于每个节点????，我们为其相邻边生成权重以区分????的邻居的重要性，如下所示：对于每个边（????，????）（????∈N??????），我们将其在所有会话中的频率用作其权重相应的边缘；由于效率的考虑，我们只在图形G??上保留每个项weight权重最高的??边。注意，图G 1上项??的邻居3（即，N????）的定义与N 1（??）相同。

因此，G??是一个无向加权图，因为??邻居集是未定向的。在测试阶段，出于效率考虑，我们不会动态更新全局图的拓扑结构。

备注。 time中的每个项目都在时间步encoded编码到统一的嵌入空间中，即h????∈R??（??表示项目嵌入的维数），并通过初始化嵌入h0??∈R |??|进行馈送。，这里我们使用基于一热的嵌入，并使用可训练矩阵W0∈R??×|??|将其变换为??维潜向量空间。

4 提出的方法

我们提出了一种新颖的基于会话推荐的全局上下文增强图神经网络（GCE-GNN）。 GCE-GNN旨在利用会话级别和全局级别的成对项转换来对当前会话的用户偏好进行建模。图3展示了GCE-GNN的体系结构，它包括四个主要组件：1）全局级项目表示学习层。通过采用会话感知注意机制，基于全局图（G??）结构递归合并每个节点的邻居的嵌入，它学习了所有会话的全局级项目嵌入； 2）会话级项目表示学习层。它在会话图G??上采用GNN模型，以学习当前会话内的会话级项嵌入。 3）会话表示学习层它通过在会话级别和全局级别汇总学习到的项目表示，对当前会话的用户偏好进行建模。 4）预测层。它输出候选推荐项目的预测概率。

接下来，我们详细介绍这四个组件。

4.1全局级项目表示学习层

接下来，我们将介绍如何在全局图上传播特征，以编码来自其他会话的项转换信息，以帮助推荐。

我们的层是基于图卷积网络[5]的体系结构构建的，并且我们利用图注意力网络[17]的思想根据每个连接的重要性来生成注意力权重。在这里，我们首先描述一个单层，它由两个部分组成：信息传播和信息聚合，然后展示如何将其推广到多层。

信息传播：一个项目可能涉及多个会话，从中我们可以获取有用的项目转换信息，以有效地帮助当前的预测。

要获得item??的一阶邻居特征，一种简单的解决方法是使用均值合并方法[1]。但是，并非??邻居集合中的所有项目都与当前会话的用户偏好相关，因此，我们考虑利用会话感知的注意力来区分（N??（??））中项目的重要性。

因此，N??（??）中的每个项目都根据会话感知的注意力得分线性组合，

??（????，????）估计不同邻域的重要性权重。直观地，一个项目与当前会议的偏好越接近，该项目对推荐的重要性就越高。

因此，我们按如下方式实现??（????，????）：

这里我们选择LeakyRelu作为激活函数，表示元素的乘积，表示级联运算，??????∈R1是全局图中边缘（????，????）的权重，W1∈R??+ 1×??+ 1和q1∈R?? +1是可训练的参数，可以将s视为当前会话的特征，它是通过计算当前会话的项表示的平均值而获得的，

与均值池不同，我们的方法使信息的传播取决于??和between之间的亲和力，这意味着与当前会话的首选项相匹配的邻居会更受青睐。

然后，通过采用softmax函数，将与con连接的所有邻居的系数归一化：

结果，最终的关注分数能够建议应该给哪个邻居节点更多的关注。

信息汇总：最后一步是汇总项表示h??及其邻域表示???N??，我们实现了聚合器功能agg，如下所示：

这里我们选择relu作为激活函数，

是变换权重。

通过单个聚合器层，项目的表示依赖于自身及其直接邻居。我们可以通过将聚合器从一层扩展到多层来展示高阶连接性信息，从而将与当前会话有关的更多信息合并到当前表示中。我们将第??步中的项目表示形式表示为：

是从先前的信息传播步骤生成的项??的表示，在初始传播迭代中将

设置为

。这样，一个项目的??顺序表示就是其初始表示及其相邻对象（最多??跳）的混合。这使更有效的消息可以并入当前会话的表示中。

4.2 会话级项目表示学习层

会话图包含当前会话中的成对项转换。接下来，我们介绍如何学习会话级项目嵌入。

由于会话图中项目的邻居对其自身的重要性不同，因此我们利用注意力机制来学习不同节点之间的权重。注意系数可以通过按元素乘积和非线性变换来计算：

级联和非线性变换：

其中参数W3∈R??×2??和b3∈R??是可训练的参数。在这里，我们选择反向位置嵌入，因为会话序列的长度不固定。与前向位置信息相比，当前项目到预测项目的距离包含更有效的信息，例如，在会话{??2→??3→？}中，??3是序列中的第二个，对预测有很大影响，但是在在会话{??2→??3→??5→??6→??8→？}中，??3的重要性相对较小。因此，颠倒的位置信息可以更准确地表明每个项目的重要性。

会话信息是通过计算会话项表示的平均值获得的，

接下来，我们通过软注意力机制学习相应的权重：

最后，可以通过线性组合项目表示来获得会话表示：

会话表示形式S由当前会话中涉及的所有项目构成，其中每个项目的贡献不仅取决于会话图中的信息，而且还取决于序列中的时间顺序.

4.4 预测层

根据获得的会话表示形式S，基于每个候选项的初始嵌入以及当前会话表示形式的最终推荐概率，我们首先使用点积，然后应用softmax函数获得输出y?：

损失函数定义为预测结果的交叉熵：

其中y表示地面真项的一热编码矢量。

5.实验

我们通过回答以下五个关键研究问题，进行了广泛的实验，以评估所提出的GCE-GNN方法的准确性：

?RQ1：GCE-GNN是否能胜过现实数据集中最新的SBR基线？

?RQ2：全局图和全局级编码器是否可以改善GCE-GNN的性能？ GCE-GNN在不同的接收场深度perform下表现如何？ ?RQ3：反向位置嵌入有用吗？

?RQ4：GCE-GNN在不同的聚合操作中表现如何？

?RQ5：不同的超参数设置（例如，节点丢失）如何影响GCE-GNN的准确性？

5.1日期集和预处理

我们使用三个基准数据集，即????????????????????4，??????????5和????????????????????6。特别是Diginetica数据集来自CIKM Cup 2016，其中包括典型的交易数据。天猫数据集来自IJCAI-15竞赛，其中包含匿名用户在天猫在线购物平台上的购物日志。 Nowplaying数据集来自[26]，它描述了用户的音乐收听行为。

[24，25]之后，我们对这三个数据集进行了预处理。更具体地说，在所有三个数据集中过滤了长度为1的会话和出现次数少于5次的项目。与[8]类似，我们将上周的会话（最新数据）设置为测试数据，并将剩余的历史数据设置为训练数据。此外，对于会话??= [??1，??2，...，????]，我们通过序列拆分预处理生成序列和相应的标签，即（[??1]，??2），（[??1，??2]，??3），...，（[??1，??2，...，?????1]，????）在所有三个数据集中进行训练和测试。表1汇总了经过预处理的数据集的统计信息。

5.2评估指标

通过遵循先前的工作[8，24]，我们采用了两种广泛使用的基于排名的指标：P @ N和MRR @ N。

5.3基线算法

我们将我们的方法与经典方法以及最新模型进行了比较。对以下九种基线模型进行了评估。

POP：推荐训练集中排名最高的项目。

Item-KNN [11]：基于当前会话的项目与其他会话的项目之间的相似度，推荐项目。

FPMC [10]：它将矩阵分解和一阶马尔可夫链相结合，以捕获顺序效果和用户偏好。通过遵循先前的工作，我们在计算推荐分数时也将忽略用户的潜在表示形式。

GRU4Rec7 [2]：这是基于RNN的模型，它使用门控循环单元（GRU）对用户序列进行建模。

NARM8 [6]：通过将RBR中的注意事项并入SBR，它比GRU4Rec [2]有所改进。

STAMP9 [8]：它利用注意力层来完全依靠当前会话中最后一项的自我关注来捕获用户的短期兴趣，从而取代以前工作中的所有RNN编码器。

SR-GNN10 [24]：它采用门控GNN层来获取项目嵌入，然后像STAMP [8]那样自动关注最后一个项目，以计算基于会话推荐的会话级嵌入。

CSRM11 [19]：它利用内存网络调查最新的会话，以更好地预测当前会话的意图。

FGNN12 [9]：最近，它是通过设计加权注意力图层来学习项目嵌入而提出的，而下一个项目推荐的会话是通过图级特征提取器来学习的。

5.4参数设置

按照先前的方法[6] [8] [24]，潜矢量的维数固定为100，所有模型的最小批量大小均设置为100。我们将每个模型的超参数保持一致，以进行公平的比较。对于CSRM，我们将内存大小设置为100，这与批处理大小一致。对于FGNN，我们将GNN层数设置为3，将磁头数设置为8。对于我们的模型，所有参数均使用均值为0和标准偏差为0.1的高斯分布进行初始化。我们使用初始学习率为0.001的Adam优化器，该学习率每3个周期将衰减0.1。将L2惩罚设置为10-5，并在{0.1、0.2，...，0.9}的有效集上搜索丢失率，该有效集是训练集的10％随机子集。此外，我们将邻居数和相邻项??的最大距离分别设置为12和3。

5.5总体比较

（RQ1）表2报告了9个基线的实验结果以及我们在三个实际数据集上提出的模型，其中每列的最佳结果以黑体字突出显示。可以观察到，就两个指标（N = 10和20）而言，GCE-GNN在所有三个数据集上均达到了最佳性能（统计显着），这确定了我们提出的方法的有效性。

在传统方法中，POP的性能最差，因为它只建议最频繁的项目。与POP相比，FPMC在三个数据集上显示了其有效性，这些数据集利用了一阶马尔可夫链和矩阵分解。 Item-KNN在Diginetica和nowplaying的数据集。请注意，它仅适用于项目之间的相似性，而不考虑会话中项目的时间顺序，因此它无法捕获项目之间的顺序转换。

后续方法NARM和STAMP明显优于GRU4REC。 NARM结合了RNN和注意力机制，后者使用RNN的最后一个隐藏状态作为用户的主要偏好，此结果表明，直接使用RNN编码会话序列可能不足以实现SBR，因为RNN仅以一种方式实现-会话中相邻项目之间的过渡。

我们还观察到，STAMP是一种基于注意力的完整方法，比NARM在天猫上的效果更好，后者在会话的最后一项中对短期注意力进行建模，从而对自我注意力进行了评分，该结果证明了该方法的有效性。在不同的项目上分配不同的注意力权重以进行会话编码。与RNN相比，注意力机制似乎是更好的选择，尽管STAMP忽略了会话中项目的时间顺序。

CSRM在Diginetica和天猫上的表现优于NARM和STAMP。它显示了使用来自其他会话的项目过渡的有效性，还显示了CSRM使用的具有有限插槽的内存网络的缺点，此外CSRM将其他会话视为一个整体，而没有将相关的项目过渡与已编码的无关在其他会议上。

在所有基准方法中，基于Digitica和Nowplaying数据集的基于GNN的方法在每种形式上均表现更好。 SR-GNN和FGNN通过将每个会话序列建模为一个子图并应用GNN编码项目，证明了在基于会话的推荐中应用GNN的有效性。这表明，图形建模将比序列建模，RNN或集合建模（SBR的注意建模）更合适。

我们的方法GCE-GNN在所有三个数据集上均优于SR-GNN和FGNN。具体来说，GCE-GNN在Diginetica上的表现优于SR-GNN，平均为6.6％，在天猫上为16.34％，在Nowplay上为15.71％。与SR-GNN和FGNN不同，我们的方法集成了来自全局上下文（即其他会话）和本地上下文（即当前会话）的信息，并且还合并了相对位置信息，从而始终如一地改善了性能。

5.6全局特征编码器（RQ2）的影响

接下来，我们对三个数据集进行实验，以评估全局级特征编码器和会话级特征编码器的有效性。特别地，我们设计了四个对比模型：

?不带全局的GCE-GNN：不带全局级功能编码器且仅具有本地功能的GCE-GNN

?不带会话的GCE-GNN：不带会话级功能编码器且仅具有全局功能的GCE-GNN

?GCE -GNN-1-hop：具有全局级别功能编码器的GCE-GNN，它将跳数设置为1。

?GCE-GNN-2-hop：具有全局级别功能编码器的GCE-GNN，它将跳数设置为2。

表3显示了不同对比模型之间的比较。显然，借助全局级别的特征编码器，GCE-GNN可获得更好的性能。与没有全局上下文的GCE-GNN相比，具有1跳和2跳全局级别特征编码器的GCE-GNN可以探索来自其他会话的项目转换信息，这有助于模型做出更准确的预测。还可以观察到，在Diginetica上，具有2跳的GCE-GNN比具有1跳的GCE GNN表现更好，这表明高层探索可能会从全局图获得更有效的信息。此外，在天猫上，具有1跳的GCE-GNN比具有2跳的GCE-GNN表现更好，这表明更高层次的探索也可能会引入噪音。