CN111127142A

CN111127142A - 一种基于广义神经注意力的物品推荐方法

Info

Publication number: CN111127142A
Application number: CN201911291806.XA
Authority: CN
Inventors: 郑莹; 吕艳霞; 魏方娜
Original assignee: Northeastern University Qinhuangdao
Current assignee: Northeastern University Qinhuangdao
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-05-08
Anticipated expiration: 2039-12-16
Also published as: CN111127142B

Abstract

本发明提供一种基于广义神经注意力的物品推荐方法，涉及信息处理技术领域。本发明将广义矩阵因子分解模型GMF和神经注意相似度模型NAIS相结合建立广义神经注意力推荐模型GNAS，在模型中使用GMF与多层感知机MLP(MLP,Multilayer Perceptron)集成的注意力机制对模型进行优化，对模型进行优化后，通过优化的广义神经注意力推荐模型预测用户对目标物品的喜好程度，为用户生成个性化推荐列表。本发明挖掘用户潜在的兴趣爱好，提高推荐系统的可解释性和多样性；其次采用GMF模型和MLP模型相结合的注意力机制估算每个历史物品在预测目标物品的喜爱程度时所占的权重，使用较小的时间代价大大提高了推荐准确率，为用户推荐更加符合其兴趣的物品。

Description

一种基于广义神经注意力的物品推荐方法

技术领域

本发明涉及信息处理技术领域，尤其涉及一种基于广义神经注意力的物品推荐方法。

背景技术

如今，我们正经历从信息时代(Information Technology，IT)到数据时代(DataTechnology，DT)的变迁，数据时代比较明显的标志就是：信息过载。如何从海量的信息中快捷的帮助特定用户找到感兴趣的信息呢？现在有两种相关的解决技术：搜索引擎与推荐系统。搜索引擎需要用户准确地描述出自己的需求，而推荐系统则通过分析、挖掘用户行为，发现用户的个性化需求与兴趣特点，将用户可能感兴趣的信息或物品推荐给用户。一个优秀的推荐系统能够很好的串联起用户、商家以及平台方，并让三方都收益，所以它不仅在学术界得到了大量的关注和研究，也在各个应用场景中得到了广泛的应用，已逐渐成为大部分领域的标配。

电子商务网站是个性化推荐系统的一大应用领域。在电影和视频网站中，个性化推荐系统也是一种重要的应用。它能够帮助用户在浩瀚的视频库中找到令他们感兴趣的视频。在社交网络方面可以利用用户的社交网络信息对用户进行个性化的物品推荐以及给用户推荐好友等。个性化广告的推荐也成当下持续关注的热点。另外还有个性化音乐推荐，新闻阅读推荐以及地理位置方面的应用等。总之，推荐系统已经随处可见，不仅具有极高的商业价值，也为我们的学习和生活带来极大的便利。

个性化推荐的最大的优点在于，它能收集用户特征资料并根据用户特征，如兴趣偏好，为用户主动做出个性化的推荐。而且，系统给出的推荐是可以实时更新的，当系统中的商品库或用户特征库发生改变时，给出的推荐序列会自动改变。这就大大提高了电子商务活动的简便性和有效性，同时也提高了企业的服务水平。如果推荐系统的推荐质量很高，那么用户会对该推荐系统产生依赖。因此，个性化推荐系统不仅能够为用户提供个性化的推荐服务，而且能与用户建立长期稳定的关系，从而有效保留客户，提高客户的忠诚度和网站点击率，防止客户流失。在日趋激烈的竞争环境下，个性化推荐系统能有效的保留客户，提高电子商务系统的服务能力，在为用户的生活代来极大便利的同时也会为公司带来巨大的经济效益。

推荐系统中最重要的模块是推荐算法，而在推荐算法中应用最广泛的是协同过滤算法(Collaborative Filtering CF)。CF主要分为两类，基于用户的协同过滤算法(User-based CF)和基于物品的协同过滤算法(Item-based CF)。Item-based CF的核心思想是给用户推荐那些和他们之前喜欢的物品相似的物品，所以该算法主要分为两步：(1)计算物品之间的相似度；(2)根据物品相似度和用户的历史行为给用户生成推荐列表。

早期的Item-based CF仅仅使用皮尔逊系数和余弦相似度等方法计算物品之间的相似度。这种方法太过简单，需要手动调优并且调优之后的方法不能直接应用于新的数据集。近年来使用基于模型(model-based)的方法，它定制一个目标函数通过最小化原始用户物品交互矩阵与Item-based CF模型重建的交互矩阵之间的损失，直接从数据中学习相似度矩阵。此方法在评分任务和Top-k推荐中的表现都优于传统的基于启发式的方法。但是推荐系统中物品数量往往很庞大，学习相似度矩阵时具有很高的复杂度。其次它只能估计共同购买或共同评分的两个物品之间的相似性，不能估计不相关的物品之间的相似性所以无法捕获物品之间的传递关系。后来Kabbur等人提出了特征物品相似度模型，它将物品表示为一个嵌入向量，两个物品之间的相似度参数化为两个物品嵌入向量的内积。当用户有了新的交互，只需要计算新物品和预测的物品(又叫做目标物品)之间的相似度，然后与原来的相似度累加得到用户对目标物品的喜爱程度。所以这个方法很适合在线推荐任务，并且通过在稀疏程度不同的多个数据集的实验结果表明，此方法可以有效地处理稀疏数据集。这个模型也存在一个缺陷，它假设用户交互过的历史物品在预测用户对目标物品的偏好时所做的贡献相同。这不符合真实的推荐场景，为解决这个缺陷，He等人提出了一个神经注意力物品相似度模型，叫做NAIS，它使用注意力机制为每个历史物品都赋予一个权重，用来区分他们对用户偏好所做的不同贡献。但是用户兴趣无时不刻在变化，单一的神经模型由于神经模型的深度较深以及模型复杂等问题，模型具有很强的泛化能力，但用户和物品之间的最原始的交互信息被忽略，模型缺乏记忆能力，所推荐的部分物品可能偏离了用户的兴趣。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于广义神经注意力的物品推荐方法，提高物品推荐的精准度；

为解决上述技术问题，本发明所采取的技术方案是一种基于广义神经注意力的物品推荐方法，包括以下步骤：

步骤1、将广义矩阵因子分解模型GMF和神经注意相似度模型NAIS相结合建立广义神经注意力推荐模型GNAS；

所述广义矩阵因子分解模型GMF如下公式：

其中，

表示用户u对目标物品i的喜好程度，j为用户u以前交互过的历史物品，p_i和q_j分别代表要预测的目标物品向量和用户交互过的历史物品向量，⊙表示向量之间的点积，h^T是一个卷积层，用来抽取更多的用户和物品之间的特征信息，提高泛化能力，

防止自推荐；

步骤1.1、构建广义神经注意力推荐模型；

通过one-hot独热编码生成目标物品的稀疏潜在向量，然后将用户u交互过的历史物品j通过multi-hot编码生成用户的潜在向量；将二者经过嵌入层得到用户和物品嵌入向量；让广义矩阵因子分解模型GMF和神经注意相似度模型NAIS共享用户和物品嵌入向量，得到广义神经注意力推荐模型GNAS，如下公式所示：

其中，

是一个卷积层，其目的是防止将点积结果直接添加到广义神经注意力推荐模型GNAS中所导致的梯度消失，a_ij是注意力权重，用来计算交互过的历史物品j在用户u预测目标物品i的喜好时所做的贡献，它被参数化为一个关于注意力函数f的softmax函数变种，如下公式所示：

其中，β为惩罚系数，其取值范围是[0,1]，用来减轻模型对历史交互物品超过阈值的活跃用户的惩罚；

所述注意力函数f通过广义矩阵因子分解模型GMF和MLP两个模型相结合，并通过向量

映射到输出层，如下公式所示：

其中，注意力函数f的输入为p_i和q_j的逐元素乘积，W和b分别代表权重矩阵和偏置向量，ReLU是激活函数，

是需要训练的一组向量，目的是将结果从隐藏层投影到输出层，权重矩阵W维度与h^T的维度相对应；

步骤1.2、对构建的广义神经注意力推荐模型进行预训练；

在预训练过程中，使用因式分解物品相似度模型FISM训练的物品嵌入向量初始化广义神经注意力推荐模型GNAS中的物品向量来代替随机初始化；其他需要学习的参数

h^T、W、b用高斯分布初始化；

步骤2、在模型中使用GMF与多层感知机MLP(MLP,Multilayer Perceptron)集成的注意力机制对模型进行优化；

步骤2.1、建立模型的目标函数，如下公式所示：

其中，L为损失，σ为sigmoid函数，目的是将预测结果

的范围限制到(0，1)，R⁺和R^-代表用户交互过的物品构成的正例集和用户没有交互过的物品构成的负例集，正例集和负例集的总和为训练实例数N，Θ代表所有的训练参数，包括p_i、q_j、

h^T、W、b，λ为控制L₂正则化的程度来防止过拟合的超参数；

步骤2.2、为了最小化目标函数，采用自适应梯度算法Adagrad自动调整训练中参数的学习速率；对于每个正例(u,i)，在没有观察到的交互中随机抽取一定比例的负例与之配对。

步骤3、对模型进行优化后，通过优化的广义神经注意力推荐模型预测用户对目标物品的喜好程度，为用户生成个性化推荐列表；

采用上述技术方案所产生的有益效果在于：

本发明提供的一种基于广义神经注意力的物品推荐方法，使用广义矩阵分解模型记忆用户与物品之间的二阶联系，并结合神经注意力相似度方法，挖掘用户潜在的兴趣爱好，提高推荐系统的可解释性和多样性；其次采用GMF模型和MLP模型相结合的注意力机制估算每个历史物品在预测目标物品的喜爱程度时所占的权重，使用较小的时间代价大大提高了推荐准确率，为用户推荐更加符合其兴趣的物品。

附图说明

图1为本发明实施例提供的广义神经注意力推荐模型GNAS的基本框架图；

图2为本发明实施例提供的三种推荐模型GNAS、NAIS以及FISM在两个真实物品数据集上HR和NDCG两个评价指标上的得分对比图；

其中，(a)为三种模型在数据集Movielens上的评价指标HR的得分对比，(b)为三种模型在数据集Movielens上的评价指标NDCG的得分对比,(c)为三种模型在数据集Pinterest-20上的评价指标HR的得分对比，(d)为三种模型在数据集Pinterest-20上的评价指标NDCG的得分对比。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

一种基于广义神经注意力的物品推荐方法，如图1所示，将广义矩阵因子分解模型(GMF)和神经注意相似度模型(NAIS)相结合建立广义神经注意力推荐模型GNAS，并在模型中使用GMF与MLP集成的注意力机制，对模型进行优化后，通过优化的广义神经注意力推荐模型预测用户对目标物品的喜好程度，为用户生成个性化推荐列表；

所述广义矩阵因子分解模型(GMF)如下公式：

其中，

防止自推荐；

矩阵分解(MF)是推荐领域最流行的协同过滤算法。基于物品的矩阵分解的思想是通过用户的低维潜在向量矩阵和物品的低维潜在向量矩阵相乘来模拟真实的用户对物品的点击率或者评分的矩阵。用户和待预测物品都通过one-hot编码生成各自的稀疏特征向量，所得到的向量通过嵌入层分别得到它们的嵌入向量；与一般的MF模型相比，广义MF模型在建模用户与历史物品之间的交互时可能更具表现力，因此把它命名为GMF。

所述将广义矩阵因子分解模型(GMF)和神经注意相似度模型(NAIS)相结合建立广义神经注意力推荐模型GNAS的具体方法为：

(1)构建广义神经注意力推荐模型

通过one-hot生成目标物品的稀疏潜在向量，然后通过multi-hot编码用户交互过的历史物品得到用户的潜在向量(Multi-hot)；将二者经过嵌入层得到用户和物品嵌入向量；让广义矩阵因子分解模型GMF和神经注意相似度模型NAIS共享用户和物品嵌入向量，得到广义神经注意力推荐模型GNAS，如下公式所示：

其中，

Softmax函数的变种主要是在分母上增加了指数，用来将注意力权重转换成一个概率分布，其中，β为惩罚系数，其取值范围是[0,1]，用来减轻模型对历史交互物品超过阈值的活跃用户的惩罚；

GNAS模型只使用MLP作为注意力机制来建模历史物品和目标物品之间的深层关系，缺乏一个wide内核来记忆用户与物品之间的最原始的信息。为了解决这个问题，在注意力函数机制中也添加GMF方法构成一个集成注意力网络来计算历史物品对用户偏好的表示所做的贡献，这样计算出来的权重能够更全面地建模用户决策过程中复杂的用户-物品交互。模型的整体框架和注意力机制a_ij的定义不变，注意力函数f通过广义矩阵因子分解模型GMF和MLP两个模型相结合，并通过向量

映射到输出层，如下公式所示：

是需要训练的一组向量，目的是将结果从隐藏层投影到输出层，h^T是一个卷积层，其维度与权重矩阵W相对应，

h^T,W，b从实验数据中学习而来；

本发明建立的GNAS模型在原始的神经注意相似度模型(NAIS)的基础上引整合了GMF模型，并采用集成注意力机制计算用户交互过的历史物品的权重，在基于隐式反馈的物品推荐场景中提供了最先进的性能。(2)对构建的广义神经注意力推荐模型进行预训练

同时训练注意力网络的参数和物品的嵌入向量会导致收敛速度慢，产生自适应效果，限制模型性能的提高。所以在预训练过程中，使用FISM训练的物品嵌入向量来初始化GNAS模型中的物品向量来代替随机初始化；由于FISM模型不涉及注意力权重的优化，因此可以直接学习到更具代表能力的物品向量。通过这样的设置，可以加快模型的收敛速度，大大提高注意力网络和其他参数的训练。由于模型使用FISM预训练的物品嵌入向量，其他需要学习的参数用高斯分布初始化。

所述对广义神经注意力推荐模型GNAS进行优化的具体方法为：

建立模型的目标函数，如下公式所示：

其中，σ为sigmoid函数，目的是将预测结果

为了最小化目标函数，采用自适应梯度算法Adagrad自动调整训练中参数的学习速率；如果下降梯度较大，则学习速度衰减较快。对于每个正例(u,i)，在没有观察到的交互中随机抽取一定比例的负例与之配对。适当的负采样率对模型性能有积极的影响。与NAIS的设置一致，本实施例将负例数设置为4。

本实施例通过两个真实物品数据集Movielens和Pinterest-20对本发明建立的广义神经注意力推荐模型GNAS进行实验验证。模型的性能由两个推荐指标Hit Ratio(HR)和Normalized Discounted Cumulative Gain(NDCG)进行评判。这两个指标已广泛用于评估Top-K推荐和信息检索。HR@10可以被解释为基于召回的度量，表示成功推荐用户的百分比(即，正面实例出现在前10名)，而NDCG@10是考虑到正实例的预测位置(正例在前10名的位置)，这两个指标的数值越大表示性能越好。

在图2中，当用户和物品的稀疏向量经过嵌入层得到的嵌入向量尺寸都设为16时，本发明的GNAS模型和NAIS模型在两个评价指标上的得分如图2所示。在实验中，我们将GNAS、NAIS以及FISM这三个模型运行100个epoch，直到收敛，并将最后50个epoch的结果制成图2。

从图2中可以清楚地看到，本发明的GNAS模型的性能远远优于单一的NAIS模型，这证明了深度模型和广度模型相结合来建模用户偏好的有效性。具体来说，在MovieLens数据集上，与NAIS在HR和NDCG上的得分69.70％和41.94％相比，本发明的GNAS模型将两项指标的得分提高到了70.88％和42.69％。在推荐任务中，NAIS模型的准确率已经得到了显著的改进。此外，本发明的GNAS模型在非稀疏数据集上性能提升比在稀疏数据集上的提升幅度更大，所以本发明的GNAS模型更适用于稠密数据集。我们提出的GNAS模型在两项指标上的得分远高于在FISM模型上的得分，充分证明了集成推荐模型在推荐准确率和可解释性方面具有极大的优势，同时体现了添加注意力机制的必要性。

本实施例还给出了如表1所示的本发明的GNAS模型与其他新颖的推荐方法的性能比较。其中一些模型是基于嵌入的。为了公平起见，将嵌入大小统一设置为16。

表1在嵌入大小为16时，GNAS和基本方法在HR@10和NDCG@10指标上的性能比较

表2.模型每轮的训练时间

从表1可以看出，GNAS模型在两个指标上都获得了最高分。特别是在非稀疏数据集MovieLens上，这得益于GMF增强了用户-物品交互的记忆能力。同时强调了将集成模型应用于推荐任务的必要性。同时，基于注意力的模型(如NAIS和GNAS)在这两个数据集上的性能显著优于其他推荐方法。此外，GNAS的性能优于NAIS，反映了注意力网络中设计集成模型的有效性。由于表示用户的方式不同，基于用户的方法(MF,MLP)的性能逊色于基于物品的方法(NAIS,GNAS)。

本实施例中还给出了GNAS模型和基模型每个epoch的训练时间，如表2所示。因为其他模型是由JAVA而不是Tensorflow实现的，所以训练时间没有展示。后两种模型由于加入了注意力机制，耗时较长。从表2可以看到，与NAIS相比，本发明的GNAS模型以较小的时间成本获得了性能的显著改进。这是合理的，因为广义矩阵分解可以简单有效地捕获用户和物品之间的低阶联系。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。